8. März 2026

Von sieben Agenten zu einem: Wie ein Anthropic-Ausfall mein Produkt rettete

architectureengineeringai

Dieser Artikel ersetzt „Energiebeschreibungen", „Prompt für den Gesamtüberblick" und „Von Analyse-Agenten zum Energie-Cache", die die vorherige Version des Systems beschreiben.

Anfang März 2026 hatte Anthropic einen massiven Ausfall. Mein Service, der komplett von Claude abhing, funktionierte einfach nicht mehr. Die Nutzer sahen Fehler, ich sah Panik. Also ging ich los und experimentierte mit dem, was gerade funktionierte. Zwei Wochen später hatte ich ein anderes Produkt — schneller, einfacher, günstiger. Manchmal muss jemand den Stecker ziehen, damit man endlich nachdenkt: Braucht man wirklich so viele Steckdosen?

Was vorher war (und warum es mir immer noch wehtut, es wegzuwerfen)

Die alte Architektur basierte auf einer eleganten Idee: Die Energetik jedes Hauses in einer Geburtskarte ist statisch und hängt nicht von der Frage des Nutzers ab. Also kann man sie einmal beschreiben, cachen und endlos wiederverwenden.

Klingt elegant. In der Praxis bedeutete es Folgendes:

Beim Hinzufügen einer Karte generierte das System 12 Energietexte — einen pro Haus, 500-1500 Wörter lang, ein separater LLM-Aufruf für jeden. Der Nutzer fügte eine Karte hinzu — und wartete. Fünf Minuten. Manchmal länger. Er hatte noch nichts gefragt, noch keine einzige Antwort gesehen — und saß bereits da und starrte auf den Fortschrittsbalken. Viele blieben nicht so lange. Und ich verstehe sie — ich wäre auch nicht geblieben.

Bei jeder Frage — ein Klassifikator bestimmte den Anfragetyp, ein Planer erstellte einen Plan mit 4-10 Punkten, für jeden Punkt wurde der Cache geprüft, fehlende Texte wurden generiert, dann wurde alles zu einer finalen Antwort zusammengesetzt. Sieben Agenten, jeder mit eigenem Prompt. Antwortzeit — bis zu zwei Minuten.

Sieht toll aus im Architekturdiagramm. Quälend in der Praxis.

Dabei — und das ist wichtig — gefällt mir die Idee immer noch. Die Energietexte waren gut. Die Prompts zu ihrer Generierung waren das Ergebnis von Hunderten Iterationen und mehreren Hundert Euro an Tests. Das Caching funktionierte. Es war einfach eine Lösung für das falsche Problem des Produkts. Vielleicht kehre ich irgendwann zu dieser Architektur zurück — wenn ich verstehe, wofür. Bis dahin liegen die Prompts in Git und warten auf ihren Moment.

Was wirklich kaputtging

Fünf Minuten bis zum Einstieg — dann Stille. Fünf Minuten Warten beim Hinzufügen der ersten Karte — das ist nicht „langsam". Das ist „Tab geschlossen". Die Leute kamen, fügten eine Karte hinzu, sahen, dass sie warten mussten — und gingen. Ich verlor Nutzer, bevor sie überhaupt eine einzige Frage stellen konnten. Tolle Art, ein Business aufzubauen.

Zwei Minuten pro Antwort. Selbst nachdem eine Karte „aufgewärmt" war — jede komplexe Frage konnte bis zu zwei Minuten dauern. In einer Welt, in der Leute an ChatGPT mit seinen fünf Sekunden gewöhnt sind, sind zwei Minuten eine Ewigkeit. Besonders wenn man noch nicht sicher ist, ob der Service die eigene Zeit überhaupt wert ist.

Sieben Fehlerpunkte. Sieben Agenten — sieben Stellen, an denen etwas schiefgehen kann. Der Klassifikator lag manchmal daneben. Der Planer erstellte seltsame Pläne. Ein hängender Aufruf blockierte alles. Und dann fiel Anthropic aus — und alle sieben Punkte versagten gleichzeitig. Eine Symphonie der Zuverlässigkeit.

Caching um des Cachings willen. „Die zehnte Frage wird günstig!" — versprach ich. Das Problem: Bis zur zehnten Frage kamen die wenigsten. Die meisten stellten 2-3 Fragen. Ich hatte einen Ferrari für die Fahrt zum Bäcker um die Ecke gebaut.

Wie Anthropic den Anstoß gab

Anfang März fiel Claude aus. Nicht für fünf Minuten — ernsthaft und für lange Zeit. Der Service funktionierte nicht, Nutzer schrieben, und ich saß da und wartete, bis sich die fremde Infrastruktur repariert. Ein angenehmes Gefühl völliger Hilflosigkeit.

Statt einfach zu warten, ging ich Alternativen testen. Gemini, GPT-5.2 — egal was, Hauptsache es funktionierte jetzt gerade. Und ich entdeckte etwas Unerwartetes.

GPT-5.2 hält den Kontext. Das gesamte JSON der Geburtskarte — Planetenpositionen, Häuserspitzen, Aspekte mit Orben, Würden, abgefangene Zeichen, Rezeptionen — wird vollständig in einen einzigen Prompt geladen. Und das Modell verliert nicht den Faden. Verwechselt nicht den Herrscher eines Hauses mit einem Planeten im Haus. Verliert keine Abschnitte. Vergisst nicht, abgefangene Zeichen zu prüfen.

Früher waren die Energietexte eine Krücke: Vorherige Modelle konnten nicht vernünftig mit der rohen Karte arbeiten, sie brauchten vorverdaute Analyse. GPT-5.2 kaut selbst. Nicht schlecht, wenn ein Modell das für einen erledigt, wofür man ein halbes Jahr Ingenieursarbeit investiert hat.

Der Prompt wurde anders — größer und dichter. Statt sieben kleiner Prompts — einer, aber gründlich. Er enthält die gesamte Methodik: derivative Häuserlogik, das Drei-Ebenen-Interpretationsmodell, die Bewusstseinskarte nach Häusern, das Planetenintegrationsspektrum, das Achsenprinzip, Fragen-Routing, demografische Anpassung. Ein Dokument, das das Modell bei jeder Frage vollständig erhält.

Was das gebracht hat

Sofortige Bereitschaft. Karte hinzufügen — und direkt losfragen. Fünf Minuten Wartezeit wurden zu null. Das ist wahrscheinlich die wichtigste Änderung aus Produktsicht. Nicht die technisch beeindruckendste — aber die wichtigste.

30-60 Sekunden statt zwei Minuten. Ein LLM-Aufruf statt zehn. Immer noch nicht sofort — der Prompt ist groß, die Karte ausführlich, die Antworten lang. Aber der Unterschied zwischen „zwei Minuten auf den Bildschirm starren" und „eine halbe Minute warten, während man sich Tee einschenkt" — der ist grundlegend.

1 € zum Start. Statt kostenloser „zwei Fragen mit fünfminütigem Ladebildschirm" bekommt jeder neue Nutzer einen Euro auf sein Konto. Dank der gesunkenen Kosten pro Aufruf reicht das für spürbar mehr Fragen — man kann das System richtig ausprobieren, statt zwei Antworten zu bekommen und an eine Wand zu stoßen.

Zuverlässigkeit. Ein Modell, ein Aufruf, ein Fehlerpunkt statt sieben. Und wenn GPT-5.2 auch mal ausfällt — wechsle ich innerhalb eines Tages zu Claude oder Gemini. Es gibt einen Prompt, und ihn für einen anderen Anbieter anzupassen ist unvergleichlich einfacher, als sieben Agenten zu migrieren.

Was verloren ging (und in Reserve wartet)

Caching war eine schöne Ingenieursidee. „Die Karte wärmt sich mit jeder Frage auf" — das halte ich immer noch für eine gute Metapher und eine gute Architektur. Wenn Leute 20 Fragen am Stück stellen würden, hätte das enormen Sinn ergeben. Aber die Realität hat gezeigt: Ein schönes System ist nichts wert, wenn es den ersten Eindruck ruiniert.

Die Sonnet/Opus-Aufteilung ist auch weg. Vorher wählte der Nutzer zwischen schnell-und-günstig und tiefgründig-und-teuer. Jetzt deckt ein einzelnes Modell beide Szenarien gut genug ab.

Die Prompts der Energiebeschreibungen — Hunderte Iterationen, mehrere Hundert Euro für Tests — liegen im Repository. Nicht gelöscht. Ich bin Ingenieur, und es tut mir physisch weh, funktionierenden Code zu löschen. Irgendwann finde ich vielleicht eine Verwendung — für Offline-Berichte, für einen Premium-Tier mit Tiefenanalyse, oder für etwas, das mir noch nicht eingefallen ist. Oder vielleicht bleiben sie einfach ein Denkmal des Overengineering. Auch ein ehrenvolles Schicksal.

Die Moral

Ich liebe es, Systeme zu bauen. Die Multi-Agent-Pipeline war ein gutes System — mit elegantem Caching, paralleler Generierung, Trennung der Verantwortlichkeiten. Ich habe sie mehrere Monate gebaut und war stolz auf das Ergebnis.

Und dann fiel Anthropic aus, und in zwei Wochen habe ich etwas zusammengebaut, das besser funktioniert.

Manchmal ist die richtige architektonische Entscheidung — die Architektur abzureißen. Und manchmal braucht man dafür einen Anstoß von außen. Danke, Anthropic.