Agente Bayesiano: Evolución de Habilidades Guiada por la Posterior para Plataformas de Agentes LLM

Resumen

Los agentes basados en modelos de lenguaje grandes (LLM) dependen cada vez más de condiciones externas de inferencia: indicaciones (prompts), herramientas, memoria, SOP (procedimientos operativos estándar), habilidades y retroalimentación del entorno de evaluación (harness). Estos activos pueden mejorar la ejecución de tareas sin modificar los pesos del modelo, pero a menudo se revisan mediante reflexión heurística o reutilizando éxitos y fracasos observados como si el simple recuento constituyera una creencia fiable. Presentamos Bayesian-Agent, un marco nativo y transversal que trata las habilidades reutilizables y los SOP como hipótesis sobre si un modelo congelado tendrá éxito bajo un indicación, contexto y entorno de evaluación determinados. Bayesian-Agent registra evidencia de trayectorias verificadas, mantiene un posteriori categórico condicionado por características sobre cada habilidad, y traduce el estado del posteriori en acciones inspeccionables como parchear, dividir, comprimir, retirar y explorar. Las indicaciones dirigidas al modelo reciben barreras de seguridad ejecutables y parches para modos de fallo, mientras que los resúmenes del posteriori permanecen disponibles para auditoría. Con deepseek-v4-flash, la reparación incremental mejora SOP-Bench del 80% al 95%, Lifelong AgentBench del 90% al 100% y RealFin-Bench del 45% al 65%. Además, evaluamos el backend nativo de Bayesian-Agent y los backends opcionales GenericAgent, mini-swe-agent y Claude Code. Los resultados incluyen configuraciones positivas, negativas, saturadas y de estudio de caso, lo que sugiere que la evolución de habilidades del agente se concibe mejor como una optimización del entorno de evaluación guiada por el posteriori, en lugar de una acumulación no calibrada de indicaciones. El código fuente está disponible en https://github.com/DataArcTech/Bayesian-Agent.

English

LLM agents increasingly rely on external inference conditions: prompts, tools, memory, SOPs, skills, and harness feedback. These assets can improve task execution without changing model weights, but they are often revised by heuristic reflection or by reusing observed successes and failures as if counts alone were reliable belief. We introduce Bayesian-Agent, a native and cross-harness framework that treats reusable skills and SOPs as hypotheses about whether a frozen model will succeed under a particular prompt, context, and harness environment. Bayesian-Agent records verified trajectory evidence, maintains a feature-conditioned categorical posterior over each skill, and maps posterior state into inspectable actions such as patch, split, compress, retire, and explore. Model-facing prompts receive executable guardrails and failure-mode patches, while posterior summaries remain available for audit. With deepseek-v4-flash, incremental repair improves SOP-Bench from 80\% to 95\%, Lifelong AgentBench from 90\% to 100\%, and RealFin-Bench from 45\% to 65\%. We further evaluate Bayesian-Agent's native backend and optional GenericAgent, mini-swe-agent, and Claude Code backends. The results include positive, negative, saturated, and case-study settings, suggesting that agent skill evolution is best viewed as posterior-guided harness optimization rather than uncalibrated prompt accumulation. The source code is available at https://github.com/DataArcTech/Bayesian-Agent.