Bayesian-Agent: Posterior-gesteuerte Fähigkeitenentwicklung für LLM-Agenten-Nutzung

Zusammenfassung

LLM-Agenten stützen sich zunehmend auf externe Inferenzbedingungen: Prompts, Werkzeuge, Gedächtnis, SOPs, Fähigkeiten und Rückmeldungen aus der Testumgebung. Diese Komponenten verbessern die Aufgabenausführung, ohne die Modellgewichte zu ändern, werden jedoch oft durch heuristische Reflexion oder durch Wiederverwendung beobachteter Erfolge und Misserfolge überarbeitet, als ob allein die Anzahl der Beobachtungen eine zuverlässige Überzeugung darstellte. Wir stellen Bayesian-Agent vor, ein natives und umgebungsübergreifendes Framework, das wiederverwendbare Fähigkeiten und SOPs als Hypothesen darüber behandelt, ob ein eingefrorenes Modell unter einer bestimmten Aufforderung, einem bestimmten Kontext und einer bestimmten Testumgebung erfolgreich sein wird. Bayesian-Agent zeichnet verifizierte Trajektorien-Evidenzen auf, pflegt eine merkmalsbedingte kategoriale Posteriori über jede Fähigkeit und bildet den Posterior-Zustand auf überprüfbare Aktionen wie Patchen, Aufteilen, Komprimieren, Zurückziehen und Erkunden ab. Modellbezogene Prompts erhalten ausführbare Leitplanken und Fehlermodus-Patches, während Zusammenfassungen der Posteriori für Prüfungen verfügbar bleiben. Mit DeepSeek-v4-Flash verbessert die inkrementelle Reparatur SOP-Bench von 80 % auf 95 %, Lifelong AgentBench von 90 % auf 100 % und RealFin-Bench von 45 % auf 65 %. Wir evaluieren zudem Bayesian-Agents natives Backend sowie optionale GenericAgent, Mini-Swe-Agent und Claude Code Backends. Die Ergebnisse umfassen positive, negative, gesättigte und Fallstudien-Szenarien und legen nahe, dass die Evolution von Agent-Fähigkeiten am besten als posteriori-gesteuerte Optimierung der Testumgebung und nicht als unkalibrierte Prompt-Akkumulation betrachtet wird. Der Quellcode ist verfügbar unter https://github.com/DataArcTech/Bayesian-Agent.

English

LLM agents increasingly rely on external inference conditions: prompts, tools, memory, SOPs, skills, and harness feedback. These assets can improve task execution without changing model weights, but they are often revised by heuristic reflection or by reusing observed successes and failures as if counts alone were reliable belief. We introduce Bayesian-Agent, a native and cross-harness framework that treats reusable skills and SOPs as hypotheses about whether a frozen model will succeed under a particular prompt, context, and harness environment. Bayesian-Agent records verified trajectory evidence, maintains a feature-conditioned categorical posterior over each skill, and maps posterior state into inspectable actions such as patch, split, compress, retire, and explore. Model-facing prompts receive executable guardrails and failure-mode patches, while posterior summaries remain available for audit. With deepseek-v4-flash, incremental repair improves SOP-Bench from 80\% to 95\%, Lifelong AgentBench from 90\% to 100\%, and RealFin-Bench from 45\% to 65\%. We further evaluate Bayesian-Agent's native backend and optional GenericAgent, mini-swe-agent, and Claude Code backends. The results include positive, negative, saturated, and case-study settings, suggesting that agent skill evolution is best viewed as posterior-guided harness optimization rather than uncalibrated prompt accumulation. The source code is available at https://github.com/DataArcTech/Bayesian-Agent.