Bayesian-Agent: Posterieur-gestuurde vaardigheidsevolutie voor LLM-agent-harnassen

Samenvatting

LLM-agenten vertrouwen steeds meer op externe inferentiecondities: prompts, tools, geheugen, SOP's, vaardigheden en harness-feedback. Deze assets kunnen de taakuitvoering verbeteren zonder de modelgewichten te wijzigen, maar worden vaak herzien door heuristische reflectie of door het herbruiken van waargenomen successen en mislukkingen alsof tellingen op zichzelf al een betrouwbare overtuiging vormen. We introduceren Bayesian-Agent, een native en cross-harness raamwerk dat herbruikbare vaardigheden en SOP's behandelt als hypotheses over de vraag of een bevroren model zal slagen onder een specifieke prompt, context en harness-omgeving. Bayesian-Agent registreert geverifieerd trajectbewijs, onderhoudt een kenmerk-geconditioneerde categorische posterior over elke vaardigheid, en vertaalt de posterior-toestand naar inspecteerbare acties zoals patchen, splitsen, comprimeren, terugtrekken en verkennen. Modelgerichte prompts ontvangen uitvoerbare vangrails en foutmoduspatches, terwijl posterior-samenvattingen beschikbaar blijven voor audit. Met deepseek-v4-flash verbetert incrementele reparatie SOP-Bench van 80% naar 95%, Lifelong AgentBench van 90% naar 100% en RealFin-Bench van 45% naar 65%. We evalueren verder de native backend van Bayesian-Agent en optionele GenericAgent-, mini-swe-agent- en Claude Code-backends. De resultaten omvatten positieve, negatieve, verzadigde en casestudy-instellingen, wat suggereert dat de evolutie van agentvaardigheden het best kan worden beschouwd als posterior-gestuurde harness-optimalisatie in plaats van ongekalibreerde promptaccumulatie. De broncode is beschikbaar op https://github.com/DataArcTech/Bayesian-Agent.

English

LLM agents increasingly rely on external inference conditions: prompts, tools, memory, SOPs, skills, and harness feedback. These assets can improve task execution without changing model weights, but they are often revised by heuristic reflection or by reusing observed successes and failures as if counts alone were reliable belief. We introduce Bayesian-Agent, a native and cross-harness framework that treats reusable skills and SOPs as hypotheses about whether a frozen model will succeed under a particular prompt, context, and harness environment. Bayesian-Agent records verified trajectory evidence, maintains a feature-conditioned categorical posterior over each skill, and maps posterior state into inspectable actions such as patch, split, compress, retire, and explore. Model-facing prompts receive executable guardrails and failure-mode patches, while posterior summaries remain available for audit. With deepseek-v4-flash, incremental repair improves SOP-Bench from 80\% to 95\%, Lifelong AgentBench from 90\% to 100\%, and RealFin-Bench from 45\% to 65\%. We further evaluate Bayesian-Agent's native backend and optional GenericAgent, mini-swe-agent, and Claude Code backends. The results include positive, negative, saturated, and case-study settings, suggesting that agent skill evolution is best viewed as posterior-guided harness optimization rather than uncalibrated prompt accumulation. The source code is available at https://github.com/DataArcTech/Bayesian-Agent.