MMX Technology Reference Ver1.01

-- MMX Technology Reference --

第1章．はじめに

第2章．MMXテクノロジの検出

第3章．MMXレジスタ・セット

第4章．データタイプ

第5章．パック／アンパック

第6章．Wraparound ／ Satulation

第7章．SIMD

第8章．MMX Instructions

第9章．MMXテクノロジの使用／実験

第10章．参考文献／資料

第1章．はじめに

MMXテクノロジは、Intelが開発したx86 CPUの拡張機能の1つで、単一命令・複数データ（SIMD）技法を使用して、複数のデータ要素を並行して処理することにより、マルチメディアおよびコミュニケーション・ソフトウェアを高速化することが可能になります。

MMXテクノロジは、現在最新技術であるIntel-SSE（KNI）やAMD-3DNow!テクノロジの基礎になっています。従って、MMXテクノロジを理解することはSSEや3DNow!テクノロジを理解することにもつながり、今後登場するSIMDテクノロジに柔軟に対応することができるようになると思われます。

本書はそのMMXテクノロジを理解することを目的とした解説書です。

第2章．MMXテクノロジの検出

MMXテクノロジは現在流通しているプロセッサにはほぼ全てに搭載されていますが、Intel-Pentium以前のプロセッサには搭載されていないのでMMX命令が使用可能か調べる必要があります。

MMXテクノロジを検出するにはCPUID命令を使用します。CPUID命令はCPUから、そのCPU固有の情報を得る命令です。しかし、そのためにはアセンブラコードを必要とします。では、具体的な方法をC言語（インラインアセンブラ）を用いて解説します。

C言語（インラインアセンブラ）例：

//**********************************************************************
// MMXテクノロジ検出関数
// BOOL IsMMXEnabled(void)
// 戻り値：
// TRUE （0以外) … MMXテクノロジが検出された
// FALSE （0） … MMXテクノロジが検出されなかった//**********************************************************************

#define MMX_FLAG 0x00800000 //MMX検出ビットの定義
#define CPUID __asm _emit 0x0F __asm _emit 0xA2 //CPUID命令を定義

BOOL IsMMXEnabled(void)
{
    int flag=0;

_asm
{//=== インラインアセンブラ開始 ===========================

push eax //レジスタ退避
push ebx //レジスタ退避
push ecx //レジスタ退避
push edx //レジスタ退避

mov eax, 1 //レジスタeaxに１を代入

CPUID //CPUID命令

mov flag, edx //検出用フラグ取得

pop edx //レジスタ復元
pop ecx //レジスタ復元
pop ebx //レジスタ復元
pop eax //レジスタ復元

}//=== インラインアセンブラ終了 ===========================

if( (flag & MMX_FLAG) == 0 )
{
    return FALSE;
}

    return TRUE;
}
//**********************************************************************

　

解説：

まず、レジスタeaxに１を代入し、CPUID命令（ 0FA2 ）を実行します。すると自動的にedxにそのプロセッサに搭載されているテクノロジのフラグがセットされます。それを取得し、判定することでMMXテクノロジの検出が行えます。

これを少々改良すれば、現在の最新のテクノロジ、及び今後登場するテクノロジをも検出することが可能です。具体的には if((flag & XXX)==0) のXXXを変えればよいだけです。Intelの SSE（KNI）ならば 0x02000000 、AMDの3DNow!ならば0x80000000です。これらの値は各メーカーの、それぞれのプロセッサのデータシートを調べれば見つかるはずです。

この関数でFALSEが帰ってきた場合はそのテクノロジが使用不可ということになります。

第3章．MMXレジスタ・セット

　

MMXレジスタ／ FPUレジスタ：

MMX命令にはMMXレジスタが使用され、それはMM0 ～ MM7 という８つの新しい64 ビットレジスタです。しかし、実はFPUレジスタと共有されており、MMXモード／FPUモードを切り替えて使用しています。

MMXモード／FPUモードの切り替えは、FPU → MMX への切り替えは自動ですが、 MMX → FPUへの切り替えは命令を要します。

実際のプログラムでは、なるべくMMX命令とFPU命令を混在して使用しないようにし、MMXコードの終わりには「EMMS」という命令を実行してMMXレジスタをクリアするようにします。

　
モード切り替えペナルティ：

EMMS命令を使用してMMX命令とFPU命令を混在して使用することも可能ですが、モード切り替えのペナルティ（最大５０クロック）が大きいため、できるだけこの切り替えを少なくすることが重要です。

第4章．データタイプ

MMX命令は専用の新しいデータ型を使用します。それが「パックド整数値」とよび、下の図のように64ビットサイズで、1バイト整数×8個、2バイト整数×4個、4バイト整数×2個、8バイト整数×1個の4種類あります。また、この半分の32ビットサイズで、1バイト整数×4個、2バイト整数×2個、4バイト整数×1個を扱うこともできます。

パックド・バイト： 64 ビットにパックされた8 バイト

1ﾊﾞｲﾄ

パックド・ワード： 64 ビットにパックされた4 ワード

2ﾊﾞｲﾄ

パックド・ダブルワード： 64 ビットにパックされた2 ダブルワード

4ﾊﾞｲﾄ

クワッドワード： 64 ビットクワッドワード

8ﾊﾞｲﾄ

　

実際にはこれらは変数として宣言したりすることはできません。char mem[8]; などとして普通にメモリに割り当てます。

第5章．パック／アンパック

パックとはパックド・ワード → パックド・バイト、パックド・ダブルワード → パックド・ワードのようにパックされたそれぞれのデータをさらに上位ビットをカットして１つのデータサイズを小さくすることです。

アンパックとはパックの逆で、パックド・バイト → パックド・ワード、パックド・ワード → パックド・ダブルワードのようにパックされたそれぞれのデータを大きなサイズに変換することです。

簡単に言うとデータのキャストを複数同時に処理すると考えられます。

パックの例：

↓

アンパックの例：

↓

第6章．Wraparound ／ Satulation

Wraparound：

通常、char などの変数には最大値があり、最大値を超えると最小値に戻ってしまいます。例えばchar型の変数に127（最大値）を代入し、さらに１を足すと ?128 になってしまいます。これをWraparoundといいます。これを防ぐ為には計算をうまくやるか、予想される最大値に収まる型を使用しなければなりません。また、最小値に対しても同様のことが起こります。

127 (0x7F)

-128 (0x80)

Satulation：

これに対し、Satulationは例えばchar型の変数に127（最大値）を代入し、さらに１を足してもその最大値を超えたり、Wraparoundせずに最大値を保持します。これは最小値に対しても同様の機能を果たします。SatulationはMMX演算時の特殊な機能でこれを知っておくと便利なことがあります。

127 (0x7F)

実例：

実際には、例えばWindowsにおいて画像の1pixelの1成分（RGBのうちの１つ）は0~255なのでこの範囲内の値を保持しておけばよいのですが、計算時にこれを超えることがあります。そのときに超えているかどうかの判定をしなければならないところがしなくてもよくなります。具体的にプログラムでは、以下のようなことが起こります。

//***************************************************

int r,g,b; // int → unsigned char とすることができる

r = r + blightness;

if( r > 255 ){ r = 255; } // ← ここが不要になる

//***************************************************

MMXテクノロジではこのSatulationの機能を使用することができ、コードの簡略化および実行速度の高速化をすることができます。

第7章．SIMD

SIMDとは：

SIMDはSingle Instruction Multiple Data の略で、１つの命令で複数のデータを扱い、並列に処理することで高速化を図る技術です。例えば、パックド・バイトならば１度に８つのデータを加算・減算などして処理できることになります。

SIMDの例：

下のような８個の要素をもつ配列Ａ、Ｂ、Ｃがあったとします。

Ａ＝	Ａ１	Ａ２	Ａ３	Ａ４	Ａ５	Ａ６	Ａ７	Ａ８
Ｂ＝	Ｂ１	Ｂ２	Ｂ３	Ｂ４	Ｂ５	Ｂ６	Ｂ７	Ｂ８
Ｃ＝	Ｃ１	Ｃ２	Ｃ３	Ｃ４	Ｃ５	Ｃ６	Ｃ７	Ｃ８

Ａ、Ｂのそれぞれの要素を足して結果をＣに代入したいとすると、

Ｃ１＝Ａ１＋Ｂ１     Ｃ２＝Ａ２＋Ｂ２

Ｃ３＝Ａ３＋Ｂ３     Ｃ４＝Ａ４＋Ｂ４

Ｃ５＝Ａ５＋Ｂ５     Ｃ６＝Ａ６＋Ｂ６

Ｃ７＝Ａ７＋Ｂ７     Ｃ８＝Ａ８＋Ｂ８

のように８回演算処理しなければなりません。

ところが、SIMDでは、

Ｃ＝Ａ＋Ｂ とするだけで同様の結果を得ることができます。

　
SIMDの長所：

・プロセッサでは「メモリからレジスタへ移動」 → 「演算」 → 「メモリへ戻す」の作業の回数が少なくなるため、メモリアクセスタイミング等も考慮して非常に効率よくメモリアクセスができます。

・１度に複数処理をするのでループの回数を減らすことができます。ループの回数が減れば、ループ終了判定回数が減ることになり、そのぶん高速化します。

SIMDの短所：

・データ数に制限が起こります。N個同時に演算できるSIMDならば確保するデータのサイズはNの倍数である必要があり、処理できる個数もNの倍数となります。従って、無駄に多く処理してしまう場合や、少ない場合は残りのデータを処理するためにSIMDでない処理をすることになります。

第8章．MMX Instructions

命令表記フォーマット・法則：

MMX命令表記はプリフィックス、命令、サフィックスからなっています。

・プリフィックス … P （パックドの略）

・命令 … ADD や MOVなど

・サフィックス … Wraparound ／符号あり・なしのSatulation とデータ型（
パックド・バイト／パックド・ワード／パックド・ダブルワード／クワッドワード）を指定する。

Wraparound ：特に表記しない

符号ありSatulation ： S

符号なしSatulation ： US

パックド・バイト： B

パックド・ワード： W

パックド・ダブルワード： D

クワッドワード： Q

まとめると次のようになります。

[P][Instruction][S/US][B/W/D/Q]

表記例：	PADDSB
説明	P … パックド ADD … 加算 S … 符号ありSatulation B … バイト型 ▽この命令は「バイト型の符号ありSatulation パックド加算」であることが分かります。

この章での表の見方：

命令	B	W	D	Q	説明
MOVD	×	×	○	×	32ビットのデータをMMXレジスタに転送

命令	… 命令名	B/W/D/Q
B	… パックド・バイト	○	使用可
W	… パックド・ワード	×	使用不可
D	… パックド・ダブルワード	→	上位データ型へ変化
Q	… クワッドワード	←	下位データ型へ変化

Data-Transfar Instructins （データ転送命令）

データをMMXレジスタに転送する命令。

命令	B	W	D	Q	説明
MOVD	×	×	○	×	32ビットのデータをMMXレジスタに転送
MOVQ	×	×	×	○	64ビットのデータをMMXレジスタに転送

例：

movd mm0 mem1 （32ビットデータをメモリからMMXレジスタへ）
movq mem2 mm1 （64ビットデータをMMXレジスタからメモリへ）
movq mm1 mm2 （64ビットデータをMMXレジスタからMMXレジスタへ）

Add ／ Sub Instructions （加算／減算命令）

命令	B	W	D	Q	説明
PADD	○	○	○	×	加算（Wraparound）
PADDS	○	○	×	×	符号あり加算（Satulation）
PADDUS	○	○	×	×	符号なし加算（Satulation）
PSUB	○	○	○	×	減算（Wraparound）
PSUBS	○	○	×	×	符号あり減算（Satulation）
PSUBUS	○	○	×	×	符号なし減算（Satulation）

例：

paddb mm1 mm2 （BYTE型加算(Wraparound)）
paddsw mm2 mm3 （WORD型符号あり加算（Satulation））
psubusb mm4 mm5 （BYTE型符号なし減算(Satulation)）

Shift Instructions （シフト命令）

命令	B	W	D	Q	説明
PSLL	×	○	○	○	左シフト演算（つねに０で埋める）
PSRA	×	○	○	×	右シフト演算（最上位ビットで埋める）
PSRL	×	○	○	○	右シフト演算（つねに０で埋める）

例／詳細：

psllw mm1 3 （WORD型左シフト演算）

mm1

1100011000001010

1110100001011000

0101110010110000

0001100001011011

それぞれのWORDを左へ３つシフトする

mm1

0011000001010000

0100001011000000

1110010110000000

1100001011011000

psrad mm6 5 （WORD型右シフト演算）

mm6

11000110000010101110100001011000

01011100101100000001100001011011

それぞれのDWORDを右へ５つシフトし最上位ビットは元の最上位ビットで埋める

mm6

11111110001100000101011101000010

00000010111001011000000011000010

Logical Instructions （論理演算命令）

命令	B	W	D	Q	説明
PAND	○	○	○	○	ビットごとのAND演算
PANDN	○	○	○	○	ビットごとのNOT・AND演算
POR	○	○	○	○	ビットごとのOR演算
PXOR	○	○	○	○	ビットごとの XOR演算

例：

pandn mm1 mm2
（mm1 のビットごとのNOT と mm2 のANDをとる mm1 = (~mm1)&mm2 ）

※pandqのようにqはつけない。（B/W/D/Qの区別が無い）

Multiply Instructions （掛算命令）

命令	B	W	D	Q	説明
PMADD	×	→	×	×	WORDの掛け算をDWORDに出力
PMULH	×	○	×	×	掛け算の結果の上位WORDを出力
PMULL	×	○	×	×	掛け算の結果の下位WORDを出力

例／詳細：

pmaddwd mm1 mm2

mm1

Ａ１

Ａ２

Ａ３

Ａ４

mm2

Ｂ１

Ｂ２

Ｂ３

Ｂ４

↓演算後

mm1

Ｃ１

Ｃ２

pmaddwdは次のような演算をする。

Ｃ１＝Ａ１ × Ｂ１＋Ａ２ × Ｂ２
Ｃ２＝Ａ３ × Ｂ３＋Ａ４ × Ｂ４

Compare Instructions （比較命令）

命令	B	W	D	Q	説明
PCMPEQ	○	○	○	×	比較命令（＝かどうか）
PCMPGT	○	○	○	×	比較命令（＞かどうか）

例／詳細：

PCMPEQW mm1 mm3

mm1

0070

1000

0400

0008

mm3

0070

2000

5400

0008

↓演算後

mm1

FFFF

0000

FFFF

WORDのそれぞれを比較して等しいならばFFFFをセットし、それ以外は0にセットする。

Pack ／ Unpack Instructions （パック／アンパック命令）

命令	B	W	D	Q	説明
PACKSS	×	←	←	×	符号ありSatulationパック
PACKUS	×	←	×	×	符号なしSatulationパック
PUNPCKH	→	→	→	×	上位32ビットアンパック
PUNPCKL	→	→	→	×	下位32ビットアンパック

例／詳細：

mm2 及びmm3を以下の様に代入したとする。

mm2	1111	2222	3333	4444
mm3	aaaa	bbbb	cccc	dddd

PACKSSWB mm2 mm3

演算後：

mm2

それぞれの値が127 (0x7f)よりも大きい場合は127に、-128(0x80)よりも小さい場合は-128にSatulationされる。（下位４バイトにmm2の結果、上位４バイトにmm3の結果が合成されて出力される）

PACKUSWB mm2 mm3

演算後：

mm2

それぞれの値が255 (0xFF)よりも大きい場合は255に、0 (ここでWORDは符号ありで見られるため0x8000、つまり ?1 )よりも小さい場合は0にSatulationされる。

PUNPCKHWD mm2 mm3

演算後：

mm2

aaaa1111

bbbb2222

mm2とmm3のそれぞれの上位32ビットのうちのさらに上位16ビット／下位16ビットが結合されて出力される。

PUNPCKLWD mm2 mm3

演算後：

mm2

cccc3333

dddd4444

mm2とmm3のそれぞれの下位32ビットのうちのさらに上位16ビット／下位16ビットが結合されて出力される。

EMMS Instruction （EMMS命令）

命令	B	W	D	Q	説明
EMMS	－	－	－	－	MMXモード終了

MMXレジスタのMMX状態をクリアする。

第9章．MMXテクノロジの使用／実験

MMXテクノロジの使用：

・MMXテクノロジを使用するにはアセンブラ言語で記述する必要があります。VisualC++ならばインラインアセンブラで実現できます。ただし、VisualC++ Ver4.2以降でないと第8章で解説したようなMMX命令に対応していないので、”_emit” などで直接機械語を入力することになります。

以下にインラインアセンブラでの記述例を示します。

void MMXalpha( void* pSrc1, void* pSrc2, void* pDst )
{
    _asm
   {
       mov eax, 7f7f7f7fh
      movd mm4, eax

punpckldq mm4, mm4

mov eax, pDst
mov esi, pSrc1
mov edi, pSrc2

movq mm0, [esi] //64ビット転送
movq mm1, [edi]

psrlq mm0, 1 //右に１シフト（２で割る）
psrlq mm1, 1

pand mm0, mm4 //mm0 と mm4をAND演算
pand mm1, mm4

paddusb mm0, mm1 //mm0 と mm1を加算

movq [eax], mm0 //演算結果を出力先へ転送

emms

    }

}

・このサンプルはpSrc1とpSrc2のポインタで示すデータを64ビット（１バイト×８個のデータ）読み出し、それぞれ半分に割り、足した結果をpDstで示す先へ出力するものです。

これをC言語で書くと次のようになります。

unsigned int dst;

for( int n=0; n < 8; n++ )
{

dst = (*(pSrc1 + n) + *(pSrc2 + n)) /2;

if( dst < 255 ){ *(pDst + n) = (unsigned char)dst; }

else{ *(pDst + n) = 255; }

}

(注：引き数 pSrc1, pSrc2, pDstはvoid* ではなく、unsigned char* とする必要がある)

　

MMX命令の使用の流れ：

① movd または movq でmm0 からmm7 までのどれかのMMXレジスタにデータを転送する。

② ①を繰り返し、必要なデータをそろえる。

③ パック／アンパック命令で、データ型をそろえる。

③ MMXレジスタに対し、MMX命令（paddusb、psrlwなど）を実行する。

④ ③を繰り返し、計算したい演算を実行する。

⑤ パック／アンパック命令で、データ型をそろえる。

⑥ movd または movq で演算結果出力先に転送する。

⑦ EMMS 命令でMMX状態をクリアする。

　

MMX命令の使用に関して注意すべきこと：

（１）EMMS命令の使用

MMX命令の使用の流れにおいて、⑦は必ず必要です。Intelの“インテル・アーキテクチャ・ソフトウェア・ディベロッパーズ・マニュアル”によると、「FPU タグ・ワードがEMMS 命令によってリセットされる前に浮動小数点命令がFPU レジスタ・スタックのレジスタの1 つに値をロードした場合は、浮動小数点スタック・オーバフローが発生する可能性があり、その結果、浮動小数点例外が発生したり、誤った結果が生じることになる。」とありますので注意する必要があります。もし、アプリケーションレベルで浮動小数点を使用しない場合においてもEMMS命令は使用しなくてはなりません。

（２）アセンブラ言語の理解

MMX命令はアセンブラ言語で記述するため、アセンブラ言語をある程度理解しておくことが必要です。

（３）その他

MMX命令はSIMDであることに特に注意し、MMX命令を使用するべき部分、そうでない部分を見極めることが大切です。また、データ型も特殊であるため、この点も特に注意しなければなりません。

　

MMXテクノロジの実験－画像処理：

・MMX演算または通常演算で２つの画像をアルファブレンドするプログラムを作成し、実験をしてみた。

アルファブレンドとは？

AとBの画像をある一定の割合（alpha）で足す合成処理を考えます。 alphaは 0.0～1.0 とし、このときの、Aの（X，Y）座標とBの（X，Y）座標の画素をＡ（Ｘ，Ｙ）、Ｂ（Ｘ，Ｙ）とすると合成後の画素Ｐ（Ｘ，Ｙ）は、

Ｐ（Ｘ，Ｙ） = Ａ（Ｘ，Ｙ） × alpha ＋Ｂ（Ｘ，Ｙ）×（1.0－alpha）となります。

しかし、この計算はＲｅｄ、Ｇｒｅｅｎ、Ｂｌｕｅ、それぞれで行う必要があります。

Ｐ．Ｒ（Ｘ，Ｙ） = Ａ．Ｒ（Ｘ，Ｙ） × alpha ＋Ｂ．Ｒ（Ｘ，Ｙ）×（1.0－alpha）
Ｐ．Ｇ（Ｘ，Ｙ） = Ａ．Ｇ（Ｘ，Ｙ） × alpha ＋Ｂ．Ｇ（Ｘ，Ｙ）×（1.0－alpha）
Ｐ．Ｂ（Ｘ，Ｙ） = Ａ．Ｂ（Ｘ，Ｙ） × alpha ＋Ｂ．Ｂ（Ｘ，Ｙ）×（1.0－alpha）

MMX演算ではこのRGB３つ別々の処理を一つにまとめることができます。

＜実験結果＞

MMX演算（１）は４個同時、MMX演算（２）は８個同時のMMX演算を使用した。

画像サイズ（Pixel）	通常演算（ms）	MMX演算（１）（ms）	MMX演算（２）（ms）	高速化（１）	高速化（２）
2048×1536	約 612	約 212	約 200	287%	306%
1024×768	約 154	約 53	約 50.5	290%	305%
512×384	約 39	約 14.5	約 13	269%	300%
256×192	約 10	約 3	約 3	333%	333%

テスト環境： Intel Pentium2 － 300MHz、192MB Mem、Matrox - Millenium2。

＜結果考察＞

・実験結果は表のとおり、通常演算よりもMMX演算の方が約３倍高速化した。（１）も（２）も、理論的には計算部分を４個（８個）同時に演算しているので４倍（８倍）高速になるはずですが、１つの演算にかかる実行時間の違いにより、理論どおりにならなかったと考えられます。通常演算を１とするとMMX演算（１）では約1.3、MMX演算（２）では約2.7倍と考えることができます。

　

その他のSIMDテクノロジの使用（VisualC++）：

・VisualC++ はMMXテクノロジ以外のSIMDテクノロジ（Intel - Internet Streaming SIMD Extensionや、AMD－3DNow!テクノロジ／エンハンスド3DNow!テクノロジ等）には対応していません。しかし、AMDの開発サイトから開発キットをダウンロードし、この開発キットを組み込めば3DNow!テクノロジ及びエンハンスド3DNow!テクノロジを使用することができます（もちろんインラインアセンブラレベルですが）。 Intel の SSEは現時点では対応の開発キットを見つけることができませんでした（MASM用のものしかありませんでした。）。

　

第10章．参考文献／資料

・インテル・アーキテクチャ・ソフトウェア・ディベロッパーズ・マニュアル（上巻：基本アーキテクチャ）

→インテルのサイトからダウンロードすることができます。

（アドレス： http://www.intel.co.jp/jp/developer/design/pentiumiii/manuals/index.htm ）

・インテル・アーキテクチャ MMXR テクノロジプログラマーズ・リファレンス・マニュアル

（→以前にインテルのサイトからダウンロードした。）

-- MMX Technology Reference Ver 1.01 -- Copyright (C) 1999-2002 by Syn-K.