問題

私は離散コサイン変換と呼ばれる画像/ビデオ変換手法を実装しました。このテクニックは、MPEGビデオエンコーディングで使用されます。私は次のURLで提示されたアイデアに関する私のアルゴリズムに基づいています:

http://vsr.informatik.tu-chemnitz.de/~jan/MPEG/HTML/mpeg_tech.html

今度は、黒と白の画像の8x8セクションを次のように変換できます。

0140  0124  0124  0132  0130  0139  0102  0088  
0140  0123  0126  0132  0134  0134  0088  0117  
0143  0126  0126  0133  0134  0138  0081  0082  
0148  0126  0128  0136  0137  0134  0079  0130  
0147  0128  0126  0137  0138  0145  0132  0144  
0147  0131  0123  0138  0137  0140  0145  0137  
0142  0135  0122  0137  0140  0138  0143  0112  
0140  0138  0125  0137  0140  0140  0148  0143 

これは、右上に重要な情報をすべて含む画像です。変換されたブロックは次のようになります。

1041  0039  -023  0044  0027  0000  0021  -019  
-050  0044  -029  0000  0009  -014  0032  -010  
0000  0000  0000  0000  -018  0010  -017  0000  
0014  -019  0010  0000  0000  0016  -012  0000  
0010  -010  0000  0000  0000  0000  0000  0000  
-016  0021  -014  0010  0000  0000  0000  0000  
0000  0000  0000  0000  0000  0000  0000  0000  
0000  0000  -010  0013  -014  0010  0000  0000  

さて、私はこの変換をどのように利用できるかを知る必要がありますか?私は良い一致を表す同じイメージ(または別のイメージ)内の他の8x8ブロックを検出したいと思います。

また、この変換は私に何を与えますか?変換された画像の右上に格納されている情報が重要なのはなぜですか?

  ベストアンサー

DCTの結果は、元のソースを頻度ドメインに変換することです。左上のエントリには、「振幅」が格納され、「基本」周波数と周波数は水平軸と垂直軸の両方に沿って増加します。 DCTの結果は、通常より低い周波数(左上象限)でアンプルードされ、より高い周波数でのエントリの集合です。 lassesvkが述べたように、通常はソースの非常に小さな部分を構成するため、これらの高さをゼロにするだけです。しかし、この結果、情報の喪失が発生します。通常、圧縮を完了するためには、Dsssourceの圧縮がほとんど行われません。

同様の領域を見つけるためにDCTを使用する利点の1つは、低周波数値(top-leftコーナー)で最初のパスマッチを行うことができることです。これにより、一致する必要がある値の数が減少します。低周波数値の一致が見つかった場合は、より高い周波数の比較に増加する可能性があります。

これが役立つことを願って

  同じタグがついた質問を見る

videocompressiondct