Bayesian-Agent: Evolução de Habilidades Guiada pela Posterior para Aproveitamento de Agentes LLM

Resumo

Os agentes de LLM dependem cada vez mais de condições inferenciais externas: prompts, ferramentas, memória, SOPs, habilidades e feedback do harness. Esses ativos podem melhorar a execução de tarefas sem alterar os pesos do modelo, mas frequentemente são revisados por reflexão heurística ou pelo reuso de sucessos e falhas observados, como se apenas as contagens fossem crenças confiáveis. Apresentamos o Bayesian-Agent, um framework nativo e transversal que trata habilidades reutilizáveis e SOPs como hipóteses sobre se um modelo congelado terá sucesso sob um prompt, contexto e ambiente de harness específicos. O Bayesian-Agent registra evidências de trajetórias verificadas, mantém um posterior categórico condicionado a características para cada habilidade e mapeia o estado posterior em ações inspecionáveis, como corrigir, dividir, comprimir, aposentar e explorar. Prompts voltados ao modelo recebem diretrizes executáveis e correções de modos de falha, enquanto sumários posteriores permanecem disponíveis para auditoria. Com o deepseek-v4-flash, a reparação incremental melhora o SOP-Bench de 80% para 95%, o Lifelong AgentBench de 90% para 100% e o RealFin-Bench de 45% para 65%. Avaliamos também o backend nativo do Bayesian-Agent e os backends opcionais GenericAgent, mini-swe-agent e Claude Code. Os resultados incluem cenários positivos, negativos, saturados e estudos de caso, sugerindo que a evolução das habilidades do agente é melhor vista como otimização do harness guiada por posterior, em vez de acúmulo não calibrado de prompts. O código-fonte está disponível em https://github.com/DataArcTech/Bayesian-Agent.

English

LLM agents increasingly rely on external inference conditions: prompts, tools, memory, SOPs, skills, and harness feedback. These assets can improve task execution without changing model weights, but they are often revised by heuristic reflection or by reusing observed successes and failures as if counts alone were reliable belief. We introduce Bayesian-Agent, a native and cross-harness framework that treats reusable skills and SOPs as hypotheses about whether a frozen model will succeed under a particular prompt, context, and harness environment. Bayesian-Agent records verified trajectory evidence, maintains a feature-conditioned categorical posterior over each skill, and maps posterior state into inspectable actions such as patch, split, compress, retire, and explore. Model-facing prompts receive executable guardrails and failure-mode patches, while posterior summaries remain available for audit. With deepseek-v4-flash, incremental repair improves SOP-Bench from 80\% to 95\%, Lifelong AgentBench from 90\% to 100\%, and RealFin-Bench from 45\% to 65\%. We further evaluate Bayesian-Agent's native backend and optional GenericAgent, mini-swe-agent, and Claude Code backends. The results include positive, negative, saturated, and case-study settings, suggesting that agent skill evolution is best viewed as posterior-guided harness optimization rather than uncalibrated prompt accumulation. The source code is available at https://github.com/DataArcTech/Bayesian-Agent.