まだ考え中…

  • モデルの全てをRAMに載せる必要がある。
  • LLMの推論速度はメモリ帯域に影響を受ける。
  • DDR4 ECCメモリが結構安い。
    • 128GBで15000 ~ 20000くらい
  • HP Z8 G4
    • 24 DIMMスロット、DDR4 Registered ECC 2933 MHz
      • 32GBモジュールで埋めれば768GBになる。
      • 大抵のモデルを動かすことは出来る。
    • 帯域 = 2933 × 8 × 12 ÷ 1000 = 281.57 GB/s(理論値)
    • これはApple M1 Proのメモリスピードより少し早く、M1 Maxよりも遅い。
    • 似たような構成では、DeepSeekV2.5 Q8で2 token/s程度が出るらしい。
    • ヤフオクで本体が大体10 ~ 15万位で購入でき、メモリで2万×6=12万、合わせて25万くらい?