Ollama LLM KI Selbst Hosten Anleitung
Ollama: KI-Sprachmodelle selbst hosten
Mit Ollama betreiben Sie leistungsfähige KI-Sprachmodelle (LLMs) auf dem eigenen Server oder PC – ohne Cloud, ohne Abo, ohne dass Ihre Daten das Haus verlassen. Für datenschutzbewusste Unternehmen ist das ein entscheidender Vorteil. Diese Anleitung zeigt Installation, Modellauswahl und die Einbindung per API.
Warum LLMs selbst hosten?
- Datenschutz: Eingaben bleiben lokal – kein Datenabfluss an externe Anbieter.
- Keine laufenden API-Kosten: Nach der Einrichtung kostenlos nutzbar.
- Unabhängigkeit: Keine Abhängigkeit von Cloud-Anbietern oder deren Limits.
- DSGVO-freundlich: Volle Kontrolle über Verarbeitung und Speicherort.
Voraussetzungen
Ollama läuft auf Linux, macOS und Windows. Für brauchbare Geschwindigkeit empfiehlt sich:
- RAM: mind. 8 GB (16 GB+ empfohlen)
- GPU: optional, aber stark beschleunigend (NVIDIA mit CUDA)
- Speicher: mehrere GB pro Modell
Ollama installieren
# Linux (Ubuntu/Debian)
curl -fsSL https://ollama.com/install.sh | sh
# Status prüfen
systemctl status ollama
# Version anzeigen
ollama --version
Erstes Modell laden und starten
# Modell herunterladen und direkt starten
ollama run llama3.2
# Nur herunterladen
ollama pull mistral
# Installierte Modelle anzeigen
ollama list
# Modell entfernen
ollama rm mistral
Nach ollama run öffnet sich ein interaktiver Chat direkt im Terminal. Mit /bye beenden Sie die Sitzung.
Beliebte Modelle im Überblick
| Modell | Eignung | Ressourcen |
|---|---|---|
| Llama 3.2 (3B) | Schnell, ressourcenschonend | Gering |
| Mistral (7B) | Guter Allrounder | Mittel |
| Llama 3.1 (8B) | Vielseitig, gute Qualität | Mittel |
| Qwen / Gemma | Mehrsprachig, kompakt | Gering–Mittel |
Die Ollama-API nutzen
Ollama stellt eine lokale REST-API auf Port 11434 bereit – ideal zur Integration in eigene Anwendungen.
# Anfrage per curl
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "Erkläre Caching in einem Satz.",
"stream": false
}'
# Chat-Endpunkt (mit Verlauf)
curl http://localhost:11434/api/chat -d '{
"model": "llama3.2",
"messages": [
{ "role": "user", "content": "Hallo!" }
],
"stream": false
}'
Sicherheit beim Self-Hosting
- Nicht öffentlich exponieren: Standardmäßig nur auf localhost lauschen lassen.
- Reverse Proxy mit Auth: Bei externem Zugriff Nginx/Caddy mit Authentifizierung davorschalten.
- Firewall: Port 11434 nicht ungeschützt ins Internet öffnen.
- HTTPS: Bei Remote-Zugriff Verschlüsselung erzwingen.
Mit einer Weboberfläche kombinieren
Wer eine ChatGPT-ähnliche Oberfläche möchte, kombiniert Ollama mit einem Web-Frontend wie Open WebUI – ebenfalls selbst gehostet, meist als Docker-Container. So nutzen mehrere Anwender die lokale KI bequem im Browser.
Fazit
Ollama macht das Selbsthosten von KI-Sprachmodellen erstaunlich einfach: installieren, Modell laden, loslegen – komplett lokal und kostenlos. Für Unternehmen, die Datenschutz ernst nehmen und keine sensiblen Daten in die Cloud geben wollen, ist das eine echte Alternative zu kommerziellen KI-Diensten. Starten Sie mit einem kleinen Modell und skalieren Sie nach Bedarf.