まだ考え中…
- モデルの全てをRAMに載せる必要がある。
- LLMの推論速度はメモリ帯域に影響を受ける。
- DDR4 ECCメモリが結構安い。
- 128GBで15000 ~ 20000くらい
- HP Z8 G4
- 24 DIMMスロット、DDR4 Registered ECC 2933 MHz
- 32GBモジュールで埋めれば768GBになる。
- 大抵のモデルを動かすことは出来る。
- 帯域 = 2933 × 8 × 12 ÷ 1000 = 281.57 GB/s(理論値)
- これはApple M1 Proのメモリスピードより少し早く、M1 Maxよりも遅い。
- M1 Pro: 204.8 GB/s
- M1 Max: 409.6 GB/s
- https://en.wikipedia.org/wiki/Apple_M1
- 似たような構成では、DeepSeekV2.5 Q8で2 token/s程度が出るらしい。
- ヤフオクで本体が大体10 ~ 15万位で購入でき、メモリで2万×6=12万、合わせて25万くらい?
- 24 DIMMスロット、DDR4 Registered ECC 2933 MHz