Байесовский-агент: эволюция навыков, направляемая апостериорным распределением, для овладения агентами LLM

Аннотация

Агенты на основе больших языковых моделей (LLM) все чаще полагаются на внешние условия вывода: промпты, инструменты, память, стандартные операционные процедуры (SOP), навыки и обратную связь от среды исполнения (harness). Эти ресурсы позволяют улучшить выполнение задач без изменения весов модели, но зачастую они корректируются путем эвристической рефлексии или повторного использования наблюдаемых успехов и неудач, как если бы одни лишь частоты были надежным свидетельством. Мы представляем Bayesian-Agent — нативную и кросс-средовую платформу, которая рассматривает повторно используемые навыки и SOP как гипотезы о том, успешно ли замороженная модель справится с задачей при заданном промпте, контексте и среде исполнения. Bayesian-Agent записывает верифицированные свидетельства траекторий, поддерживает категориальное апостериорное распределение для каждого навыка, обусловленное признаками, и отображает состояние апостериорного распределения в проверяемые действия, такие как патч, разделение, сжатие, удаление и исследование. Промпты, обращенные к модели, получают исполняемые ограничения и патчи для режимов отказов, а сводки апостериорного распределения остаются доступными для аудита. При использовании deepseek-v4-flash инкрементальное исправление повышает показатели SOP-Bench с 80% до 95%, Lifelong AgentBench с 90% до 100% и RealFin-Bench с 45% до 65%. Мы также оцениваем нативный бэкенд Bayesian-Agent и опциональные бэкенды GenericAgent, mini-swe-agent и Claude Code. Результаты включают положительные, отрицательные, насыщенные сценарии, а также исследования конкретных случаев, что позволяет предположить, что эволюцию навыков агента лучше всего рассматривать как оптимизацию среды исполнения, направляемую апостериорным распределением, а не как некалиброванное накопление промптов. Исходный код доступен по адресу https://github.com/DataArcTech/Bayesian-Agent.

English

LLM agents increasingly rely on external inference conditions: prompts, tools, memory, SOPs, skills, and harness feedback. These assets can improve task execution without changing model weights, but they are often revised by heuristic reflection or by reusing observed successes and failures as if counts alone were reliable belief. We introduce Bayesian-Agent, a native and cross-harness framework that treats reusable skills and SOPs as hypotheses about whether a frozen model will succeed under a particular prompt, context, and harness environment. Bayesian-Agent records verified trajectory evidence, maintains a feature-conditioned categorical posterior over each skill, and maps posterior state into inspectable actions such as patch, split, compress, retire, and explore. Model-facing prompts receive executable guardrails and failure-mode patches, while posterior summaries remain available for audit. With deepseek-v4-flash, incremental repair improves SOP-Bench from 80\% to 95\%, Lifelong AgentBench from 90\% to 100\%, and RealFin-Bench from 45\% to 65\%. We further evaluate Bayesian-Agent's native backend and optional GenericAgent, mini-swe-agent, and Claude Code backends. The results include positive, negative, saturated, and case-study settings, suggesting that agent skill evolution is best viewed as posterior-guided harness optimization rather than uncalibrated prompt accumulation. The source code is available at https://github.com/DataArcTech/Bayesian-Agent.