拙訳「DOOM 3 BFG Technical Note」

1.#

視点がシャドウボリュームの内部にいるか交差しているかをきちんとテストしている
- 遅くなりがちなZ-failを回避するため
インデックスデータはCPUで生成する
- ライトボリュームの中にあるものだけをレンダリングするため
- インデックスバッファ１つに全データを__mm_stream_si128()で書き込む
データがフレーム中に1度きりしか使われない場合、こまめに__clflush()でキャッシュから追い出してやれば大規模なキャッシュ汚染は回避できる
- 別のスレッドから何回も使われるデータでは意味がない
__mm_stream_load_si128()はキャッシュを介さず”read combine”でデータを読み出す
- ただし、write-combinedメモリでのみ有効
- これはpredictiveなので帯域ギリギリ一杯まで使ってくれる
キャッシュ可能なメモリにデータをストリーミングするにはx86/x64では２倍の帯域が必要になる
- キャッシュラインまるまる1本分のデータをキャッシュ可能なメモリに書き込もうとするとき、メモリからキャッシュへフェッチした分が後で完全に上書きされてしまうので無駄になってしまう

アニメーション付きメッシュがフレーム中に何度もスキニングされる
- 単純に考えれば、スキニングのコストはメッシュデータの読み出しコストに隠蔽されるので、スキニング後メッシュデータで何かしたりしないならその場で計算する方が良い
  - スキニングしたメッシュをメモリに書き出したりGPUにコピーしたりを一切していないからできること
- 読み出すメモリが狭まるので、その分キャッシュに残れば必要なメモリ帯域を減らせて、結果cache thrashingが減ることになる
ステートレスだとリソース間で競合せずに並列にたくさんのコードを実行できる