Meine LLMs für Pi: GPT, Claude, GLM, Kimi und DeepSeek
Welche LLMs ich in Pi gerade am liebsten für Coding-Agenten nutze, warum GPT-5.5 mein Default ist und wo OpenRouter oder OpenCode Go praktisch werden.
Veröffentlicht · 4. Juni 2026

Bei Coding-Agenten rede ich gern über Harnesses.
Terminal. Tools. Sessions. Kontext. Permissions. Extensions.
All diese Dinge, die aus einem Chatfenster ein brauchbares Werkzeug machen.
Aber irgendwann bleibt eine ziemlich einfache Frage übrig:
Welches Gehirn spannst du da eigentlich ein?
Den Harness-Teil habe ich im Artikel über Pi als Coding Agent schon eingeordnet. Dieser Text hier ist der weniger philosophische und etwas teurere Teil.
Die Modelle.
Und weil LLM-Preise, Limits und Modellnamen schneller wechseln als ich „nur kurz refactoren“ sagen kann: Das hier ist kein ewiges Ranking.
Es ist mein Stand im Juni 2026.
Warum die Modellfrage in Pi entspannter ist
Pi ist für mich bei Modellen angenehm unromantisch.
Ich muss nicht meinen kompletten Workflow wechseln, nur weil ich ein anderes LLM ausprobieren will. Ich öffne /model, wähle ein Modell, arbeite weiter.
Das klingt banal.
Ist aber einer der Gründe, warum ich Pi so mag.
Ein Modell ist für mich nicht die ganze Identität meines Setups. Es ist eine Komponente. Eine wichtige, teure, manchmal erstaunlich nervige Komponente. Aber trotzdem eine Komponente.
Und Pi behandelt sie genau so.
OpenAI über Codex, Anthropic über API, DeepSeek, Z.AI, Kimi, OpenRouter, OpenCode Go und eigene Provider können alle im gleichen Arbeitsfluss landen. Nicht immer mit exakt den gleichen Stärken, nicht immer mit exakt den gleichen Limits. Aber ohne diesen absurden Werkzeugwechsel, bei dem man jedes Mal wieder bei null anfängt.
Mein Default: GPT-5.5
Wenn ich nur ein Modell wählen dürfte, wäre mein Default gerade GPT-5.5.
Nicht für alles.
Aber für sehr viel.
OpenAI positioniert GPT-5.5 ziemlich klar für Coding und professionelle Arbeit.
Das merkt man auch.
Meine persönliche Meinung ist zwar schon seit Monaten das 5.4/5.5 die "besten" Models sind, aber anscheinend gibt es jetzt auch immer mehr Benchmarks die mich da unterstützen 🎉
Es ist stark bei Refactors, Debugging, Codebase-Navigation, Planen, nüchternem Abarbeiten und diesen Sessions, bei denen das Modell bitte nicht nach drei Tool Calls vergisst, warum es überhaupt hier ist.
Dazu kommt: GPT-5.5 bringt über eine Million Token Kontext, xhigh Reasoning und sehr große Ausgaben mit. Das ist für Agentenarbeit keine kleine Randnotiz. Lange Kontexte sind nicht automatisch klug, aber sie verhindern oft, dass ein Modell alle fünf Minuten so tut, als hätte es das Projekt gerade erst kennengelernt.
Der eigentliche Sweet Spot ist für mich aber Codex.
Die Codex-Abos sind erstaunlich ergiebig, wenn man regelmäßig mit Coding-Agenten arbeitet. Reine API-Nutzung kann schnell sehr real werden. Ein Abo fühlt sich da oft entspannter an, zumindest wenn man es wirklich nutzt.
Und das ist der wichtige Unterschied zu Claude: Das ChatGPT- beziehungsweise Codex-Abo darf man dafür auch offiziell benutzen.
Pi unterstützt den Login für OpenAI Codex-Abos direkt, statt dass man mit fragwürdigen Token-Workarounds herumturnt.
Das macht für mich einen großen Unterschied.
Die Einschränkung: Frontend.
Bei visueller Arbeit, Layout, Mut, Geschmack und der Frage, ob eine Seite am Ende nicht wieder wie eine sehr höfliche SaaS-Landingpage aussieht, ist GPT-5.5 für mich nicht immer mein erster Griff. Es kann das. Aber ich vertraue ihm dort weniger blind als bei Backend, Tooling oder Logik.
Claude Sonnet und Opus: stark, aber teuer
Natürlich gehören Claude Sonnet und Claude Opus in diese Liste.
Alles andere wäre Quatsch.
Sonnet ist oft der vernünftige Claude-Default: schnell genug, stark genug, gut bei Code, gut bei Erklärung, angenehm bei längeren Aufgaben.
Opus ist die Variante, die ich nehmen möchte, wenn eine Aufgabe wirklich lange, verzweigt und potenziell teuer wird, weil Fehler dort noch teurer wären.
Anthropic beschreibt Opus genau in dieser Ecke: komplexes Reasoning, long-horizon agentic coding, viel Autonomie. Die neueren Sonnet- und Opus-Versionen bewegen sich außerdem im Bereich von 1M Kontext, was für große Codebases und längere Agentensessions natürlich reizvoll ist.
Mein Problem ist nicht die Qualität.
Mein Problem ist der Preis und die praktische Nutzbarkeit im kleinen Abo.
Und wichtig: Ein normales Claude-Abo ist für mich kein Pi-Ticket.
Mit einem Claude-Abo würde ich die Claude-Modelle nicht in Pi benutzen. Nicht, weil es keine technischen Workarounds gäbe. Die gibt es. Aber das ist nicht der saubere erlaubte Weg, und wenn Anthropic das als Abo-Umgehung wertet, droht im schlimmsten Fall eine Sperrung des Claude-Accounts.
Das wäre mir für ein paar günstigere Agentenläufe wirklich zu dumm.
Wenn Claude in Pi, dann für mich nur über einen sauberen API-Zugang oder einen ausdrücklich erlaubten Provider.
Wenn ich nur ein bisschen herumspiele, ist das egal. Wenn ich aber ernsthaft Agenten auf Projekte loslasse, werden Tokens plötzlich nicht mehr abstrakt. Dann sind sie nicht mehr „ein bisschen Nutzung“, sondern eine Rechnung mit Persönlichkeit.
Claude bleibt für mich deshalb ein Modell, das ich sehr respektiere, aber nicht immer entspannt verbrate.
GLM-5.2, Kimi K2.7 und DeepSeek V4 Pro
Das ist die Ecke, in der es für mich richtig interessant wird.
Nicht, weil diese Modelle immer besser sind als GPT oder Claude.
Sondern weil sie oft gut genug bis sehr gut sind und dabei deutlich weniger nach Luxuspanik riechen.
- GLM-5.2 ist der unterschätzte Arbeiter. Z.AI beschreibt es als Modell für agentic engineering und long-horizon tasks. 200K Kontext, große Ausgaben, Tool-Nutzung, Coding-Fokus. Vor allem im alten GLM Coding Plan war das für mich ein kleiner Cheatcode: sehr viel Modell für erstaunlich wenig Geld. Leider ist genau dieser Plan zuletzt deutlich teurer geworden. Das Modell bleibt trotzdem stark.
- Kimi K2.7 ist die angenehme OSS-Schiene. Moonshot hat die Gewichte veröffentlicht, das Modell ist nativ multimodal, hat 262K Kontext und ist klar auf Coding, long-horizon execution und Agentenarbeit ausgerichtet. Es ist nicht mein Modell für jeden heiklen Produktionsumbau. Aber für günstige, gute Agentenläufe ist es viel zu stark, um es zu ignorieren.
- DeepSeek V4 Pro ist die Kostenschublade, die sich erstaunlich oft lohnt. 1M Kontext, Mixture-of-Experts mit 1.6T Gesamtparametern und 49B aktiv, starke Coding- und Reasoning-Ausrichtung. Je nach Route und Anbieter ist es extrem günstig. Für Kleinigkeiten, Aufräumen, Suchen, Erklären und agentic work, bei dem ich nicht jedes Token innerlich mitzählen möchte, ist das sehr angenehm.
Gerade DeepSeek ist außerdem lustig direkt: Die offiziellen DeepSeek-Dokumente haben sogar eine Pi-Integration. Das gibt auf meiner sehr wissenschaftlichen Sympathieskala natürlich Bonuspunkte.
Sehr wissenschaftlich heißt hier: gar nicht.
Aber trotzdem.
OpenRouter, OpenCode Go und der Modell-Zoo
Der Punkt ist nicht, dass ich jeden Tag fünf Modelle brauche.
Der Punkt ist, dass ich sie ausprobieren kann, ohne mein Setup zu zerlegen.
OpenRouter ist dafür fast schon gefährlich bequem. Ein API-Key, hunderte Modelle, unterschiedliche Anbieter, Fallbacks, Routing nach Preis, Durchsatz oder Verfügbarkeit. Wenn ich wissen will, ob ein neues Modell in meinem echten Workflow taugt, ist das oft der schnellste Weg.
Nicht in einem Benchmark.
In meinem Projekt.
Mit meinen Dateien.
Mit meinen schlecht benannten Variablen.
OpenCode Go ist die andere praktische Schiene. Es ist ein günstiges Abo für offene Coding-Modelle, aktuell mit Modellen wie GLM, Kimi, MiniMax, Qwen und DeepSeek. Nicht als magische Alles-Flat verstehen. Limits bleiben Limits. Aber als Spielwiese für starke offene Modelle ist es sehr ordentlich.
Und das Beste: Beides ist in Pi nicht exotisch.
OpenRouter und OpenCode Go sitzen als Provider im Pi-Modellkosmos. Dazu kommen direkte Provider wie DeepSeek, Z.AI und Kimi For Coding. Wenn ein Modell nervt, wechsle ich. Wenn es überrascht, bleibt es in der Rotation.
So sollte Model-Hopping sein.
Würde ich das so empfehlen?
Ja, aber nicht als fixe Bestenliste.
Eher als Haltung.
Wenn ich einen starken Default will, nehme ich GPT-5.5.
Wenn eine Aufgabe wirklich schwierig ist und die Kosten nicht der erste Schmerzpunkt sind, schaue ich zu Claude Sonnet oder Opus, aber nur über einen sauberen Zugang, nicht über Claude-Abo-Workarounds.
Wenn ich viel ausprobieren, agentisch arbeiten oder günstiger unterwegs sein will, sind GLM-5.2, Kimi K2.7 und DeepSeek V4 Pro viel spannender, als man ihnen im westlichen Modellgespräch manchmal zugesteht.
Und wenn ich nicht weiß, was gerade gut ist, nehme ich OpenRouter oder OpenCode Go und probiere es einfach aus.
Nicht theoretisch.
In Pi.
Mit echtem Code.
Das ist für mich die eigentliche Stärke: Ich muss mich nicht religiös für ein Modell entscheiden.
Ich kann einfach arbeiten.
Und manchmal ist genau das die beste Modellstrategie.
✦Nicht jedes Modell muss mein Lieblingsmodell sein. Stark ist, dass Pi den Wechsel zwischen ihnen fast langweilig macht.
Mehr gutes Zeug
Daily DriverQuooker Cube: teuer, unnötig, und trotzdem täglich Gold wert
Meine Erfahrung mit dem Quooker Cube im Alltag: kochendes Wasser für Tee, gekühltes Sprudelwasser auf Knopfdruck und ob der hohe Preis das wirklich wert ist.
Ein absurd teurer Wasserhahn, der sich nie spektakulär anfühlt und genau deshalb jeden einzelnen Tag Gold wert ist.
Daily DriverGmail zu Kalender: Die einzige Mail-Automation, die ich wirklich wollte
Meine Erfahrung mit einer kleinen KI-Automation, die Termine in Gmail erkennt, zusammenfasst und erst fragt, bevor etwas im Familienkalender landet.
Nicht KI, die meine Mails übernimmt. Sondern KI, die kurz sagt: Das hier sieht nach einem Termin aus.
Daily DriverVercel: Mein Lieblingshoster für TypeScript-Projekte
Warum Vercel für mich privat und auf der Arbeit der angenehmste Hoster für TypeScript-Webprojekte, Nuxt, Next und schnelle Deployments ist.
Vercel ist für mich der Hoster, bei dem ich mich auf mein Projekt konzentrieren kann, anstatt auf das ganze Drumherum.