Umfassender GPU-Vergleich für LLMs

Ein Leistungs- und Kostenvergleich von fünf Hardware-Konfigurationen, basierend auf über **50 Large Language Models** und **empirischen K80-Daten**.

Executive Summary (Final)

Der **MSI EdgeXpert C931** (Blackwell-Architektur) ist die beste Preis-Leistungs-Lösung für Entwickler (Modelle < 128 GB). Die **Tesla K80** ist dank **Ollama37** und einem Anschaffungspreis von nur **~$450** wieder relevant als **extrem günstiger Einstiegspunkt** für das Experimentieren mit großen LLMs, wenngleich mit sehr geringem Durchsatz. Die **H200** und **DGX B300** bieten die unübertroffene Leistung für den professionellen Einsatz.

Direktvergleich der Setups

Vergleichen Sie die Spezifikationen und beachten Sie die kritischen Unterschiede im Speicherkonzept zwischen den Systemen.

5x RTX 3090

  • VRAM: 120 GB GDDR6X
  • Architektur: Ampere (DIY)
  • Verbindung: PCIe 4.0 Bus
  • TDP (Gesamt): ~2200 W

1x NVIDIA H200

  • VRAM: 141 GB HBM3e
  • Architektur: Hopper (Unified)
  • Verbindung: NVLink/PCIe 5.0
  • TDP (PCIe): ~600 W

NVIDIA DGX B300

  • VRAM: 2304 GB HBM3e
  • Architektur: Blackwell Ultra (8x)
  • Verbindung: NVSwitch / NVLink
  • TDP (System): ~14000 W

MSI EdgeXpert C931

  • VRAM/RAM: 128 GB LPDDR5x Unified
  • Architektur: Blackwell GB10 (NVLink-C2C)
  • Verbindung: NVLink-C2C
  • TDP (System): ~300 W

5x Tesla K80

  • VRAM: 120 GB GDDR5
  • Architektur: Kepler (Dual-GPU)
  • Verbindung: PCIe 3.0 Bus
  • TDP (Gesamt): ~1800 W

LLM Inferenzleistung

Die Werte zeigen den Durchsatz (Tokens/Sekunde, rot) und die Latenz (Zeit bis zum ersten Token in ms, blau) auf logarithmischer Skala. Die K80-Werte wurden anhand **Ihrer empirischen Open-WebUI Benchmarks** korrigiert. Werte von 0 t/s und 99999 ms deuten auf einen VRAM-Crash hin.

Kostenanalyse

Architektonische Analyse

Die Wahl des richtigen Systems hängt stark von der Größe Ihres LLM ab, da der Speichertyp (HBM vs. LPDDR5x) und die Kapazität der Engpass sind.

Speicherintegration: Engpässe und Vorteile

MSI C931: Unified LPDDR5x (128 GB)

**Vorteil:** Extrem hohe Energieeffizienz und der niedrigste Anschaffungspreis für moderne Technologie. Bei Modellen < 128 GB sehr schnelle Inferenz. **Nachteil:** Der LPDDR5x-Speicher ist langsamer als HBM3e. Bei Modellen > 128 GB ist die Leistung katastrophal.

H200 / DGX: High-Bandwidth HBM (141+ GB)

Nutzt **HBM3e-Speicher** (bis zu $4.8 \text{ TB/s}$). Dies ist die beste Wahl für große, monolithische Modelle. Die DGX erweitert dies zu einem riesigen kohärenten Pool über NVSwitch, ideal für Multi-GPU-Training und -Inferenz.

RTX / K80: Distributed GDDR (120 GB)

Modellgewichte müssen zwischen 5 diskreten Speichern über den **langsamen PCIe-Bus** synchronisiert werden. Die **Tesla K80** verschärft dies durch ihr **Dual-GPU-Design** (10 separate Chips), was zu zusätzlichen Kommunikations-Overheads führt. Nur durch Software-Optimierungen wie **Ollama37** überhaupt funktionsfähig.

Weitere Alternativen

Einige Optionen, die je nach Budget und Anwendungsfall relevant sein können.

NVIDIA RTX 4090

Starke Consumer-Karte, sehr energieeffizient, aber nur 24 GB VRAM.

  • VRAM: 24 GB GDDR6X
  • Geeignet für: Persönliche Nutzung, kleine Modelle
  • Kosten: ~$1,800 (Kauf)
Zur Produktseite

NVIDIA H100

Der Vorgänger der H200, oft kosteneffizienter in der Cloud. Hohe Leistung und 80 GB HBM3.

  • VRAM: 80 GB HBM3
  • Geeignet für: Training & Inferenz (Enterprise)
  • Kosten: ~$25k (Kauf) / ~$3-6/Std (Cloud)
Zur Produktseite

AMD Instinct MI300X

Wichtigster Konkurrent von NVIDIA mit sehr hoher VRAM-Kapazität (192 GB). Sehr gut für große LLMs.

  • VRAM: 192 GB HBM3
  • Geeignet für: Große LLMs, HPC
  • Kosten: ~$2-5/Std (Cloud)
Zur Produktseite

Cloud GPU Instanzen

Maximale Flexibilität, keine Anschaffungskosten. Ideal für variable Workloads und Pay-as-you-go-Modelle.

  • VRAM: Variabel (je nach Instanz)
  • Geeignet für: Alle Workloads, OpEx-Modell
  • Kosten: Variabel (z.B. H200 ab ~$3.70/Std)
Zu Google Cloud GPUs

Wichtige LLM- und Software-Ressourcen

Links zu den verwendeten Software-Plattformen und den Large Language Models, die in diesem Vergleich herangezogen wurden.

Software-Plattformen

  • Ollama: Der Standard für das lokale Ausführen von LLMs. (Ollama Library - Alle Modelle)
  • Ollama37 (K80): Spezieller Fork zur Gewährleistung der Abwärtskompatibilität mit älteren NVIDIA K80-GPUs (Kepler-Architektur). (GitHub Repository)
  • Open WebUI: Browser-Interface für Ollama zur einfachen Verwaltung und Nutzung der Modelle. (GitHub Repository)

LLM-Modellfamilien (Auswahl)

  • Gemma / CodeGemma: Offene Modelle von Google, bekannt für hohe Effizienz und verschiedene Größen (270M bis 27B). (Ollama: gemma3)
  • Llama / CodeLlama: Modelle von Meta, oft SOTA in der Open-Source-Kategorie (8B bis 405B). (Ollama: llama3.1)
  • Qwen / Mixtral: Modelle von Alibaba (Qwen) und Mistral AI, mit innovativen MoE-Architekturen. (Ollama: qwen3)

Fazit & Empfehlung (Final)

Die Wahl sollte auf dem Modellgröße und der Inferenz-Latenzanforderung basieren. Integrierte Systeme mit HBM sind für professionelle LLM-Anwendungen effizienter.

Top-Wahl für Entwickler: MSI EdgeXpert C931 (Edge-AI/Mittlere Modelle)

Mit einem Preis von **~$4.900** ist dies die **beste Preis-Leistungs-Lösung** für Modelle unter 128 GB. **Blackwell-Architektur** und **NVLink-C2C** bieten unschlagbare Performance und Effizienz in dieser Preisklasse. Ideal für lokale Entwicklung und Edge-Deployment.

2. Wahl: DGX B300 (Maximale Skalierung/Training)

Unübertroffen für extreme LLM-Workloads. Bietet die beste Leistung, ist aber nur für Enterprise-Budgets relevant.

3. Wahl: NVIDIA H200 (Effiziente Einzel-GPU)

Die effizienteste Wahl, wenn Ihr Modell zwischen **128 GB und 141 GB** liegt. Hohe Leistung und niedrige Betriebskosten. Die beste Balance aus Kapazität und Effizienz.

4. Wahl: 5x Tesla K80 (Extrem-Einstieg / Hobby)

Nur relevant, wenn das Budget extrem limitiert ist (**~$3.000** inkl. Minimal-Hardware). Durch Software wie **Ollama37** ist der Betrieb von 70B-Modellen möglich, allerdings mit sehr geringem Durchsatz. Hoher Stromverbrauch macht das System auf lange Sicht teuer.

5. Wahl: 5x RTX 3090 (DIY-Kompromiss)

Der Anschaffungspreis von **$13.200** ist im Vergleich zum MSI C931 (~$4.900) für ähnliche Leistung nicht mehr wettbewerbsfähig. Hoher Stromverbrauch.

```