Agent bayésien : Évolution des compétences guidée par la postérieure pour les harnais d'agents LLM

Résumé

Les agents LLM s'appuient de plus en plus sur des conditions d'inférence externes : prompts, outils, mémoire, SOP, compétences et retours du harnais. Ces actifs peuvent améliorer l'exécution des tâches sans modifier les poids du modèle, mais ils sont souvent révisés par réflexion heuristique ou en réutilisant les succès et échecs observés comme si les seuls comptages constituaient une croyance fiable. Nous introduisons Bayesian-Agent, un framework natif et inter-harnais qui traite les compétences réutilisables et les SOP comme des hypothèses sur la probabilité qu'un modèle figé réussisse sous un prompt, un contexte et un environnement de harnais particuliers. Bayesian-Agent enregistre les preuves de trajectoire vérifiées, maintient un postérieur catégoriel conditionné par les caractéristiques pour chaque compétence, et mappe l'état postérieur en actions inspectables telles que patch, split, compress, retire et explore. Les prompts destinés au modèle reçoivent des garde-fous exécutables et des correctifs de modes d'échec, tandis que les résumés postérieurs restent disponibles pour vérification. Avec deepseek-v4-flash, la réparation incrémentale améliore SOP-Bench de 80 % à 95 %, Lifelong AgentBench de 90 % à 100 % et RealFin-Bench de 45 % à 65 %. Nous évaluons également le backend natif de Bayesian-Agent et les backends optionnels GenericAgent, mini-swe-agent et Claude Code. Les résultats incluent des configurations positives, négatives, saturées et des études de cas, suggérant que l'évolution des compétences de l'agent est mieux comprise comme une optimisation du harnais guidée par le postérieur plutôt qu'une accumulation non calibrée de prompts. Le code source est disponible à l'adresse https://github.com/DataArcTech/Bayesian-Agent.

English

LLM agents increasingly rely on external inference conditions: prompts, tools, memory, SOPs, skills, and harness feedback. These assets can improve task execution without changing model weights, but they are often revised by heuristic reflection or by reusing observed successes and failures as if counts alone were reliable belief. We introduce Bayesian-Agent, a native and cross-harness framework that treats reusable skills and SOPs as hypotheses about whether a frozen model will succeed under a particular prompt, context, and harness environment. Bayesian-Agent records verified trajectory evidence, maintains a feature-conditioned categorical posterior over each skill, and maps posterior state into inspectable actions such as patch, split, compress, retire, and explore. Model-facing prompts receive executable guardrails and failure-mode patches, while posterior summaries remain available for audit. With deepseek-v4-flash, incremental repair improves SOP-Bench from 80\% to 95\%, Lifelong AgentBench from 90\% to 100\%, and RealFin-Bench from 45\% to 65\%. We further evaluate Bayesian-Agent's native backend and optional GenericAgent, mini-swe-agent, and Claude Code backends. The results include positive, negative, saturated, and case-study settings, suggesting that agent skill evolution is best viewed as posterior-guided harness optimization rather than uncalibrated prompt accumulation. The source code is available at https://github.com/DataArcTech/Bayesian-Agent.