FAMA: Метаагентный фреймворк с учетом сбоев для открытых LLM в интерактивных средах с использованием инструментов

Аннотация

Крупные языковые модели все чаще используются в качестве ядра принятия решений автономных агентов, способных вносить изменения во внешнюю среду. Однако в диалоговых тестах, которые моделируют сценарии решения клиентоориентированных проблем в реальном мире, эти агенты часто терпят неудачу из-за каскадных эффектов неправильного принятия решений. Эти проблемы особенно выражены у моделей с открытым исходным кодом, имеющих меньший размер параметров, ограниченное окно контекста и сжатый бюджет вывода, что способствует накоплению ошибок в агентских сценариях. Для решения этих проблем мы представляем мета-агентный фреймворк с учетом ошибок (FAMA). FAMA работает в два этапа: сначала анализирует траектории неудач базовых агентов для выявления наиболее распространенных ошибок; затем использует механизм оркестровки, который активирует минимальное подмножество специализированных агентов, настроенных на устранение этих сбоев путем внедрения целевого контекста для агента использования инструментов до этапа принятия решений. Эксперименты с открытыми языковыми моделями демонстрируют повышение производительности до 27% в различных режимах оценки по сравнению со стандартными базовыми показателями. Эти результаты подчеркивают, что целевой отбор контекста через специализированных агентов для устранения распространенных сбоев является ценным принципом проектирования для создания надежных многоходовых агентов с использованием инструментов, моделирующих реальные диалоговые сценарии.

English

Large Language Models are being increasingly deployed as the decision-making core of autonomous agents capable of effecting change in external environments. Yet, in conversational benchmarks, which simulate real-world customer-centric issue resolution scenarios, these agents frequently fail due to the cascading effects of incorrect decision-making. These challenges are particularly pronounced for open-source LLMs with smaller parameter sizes, limited context windows, and constrained inference budgets, which contribute to increased error accumulation in agentic settings. To tackle these challenges, we present the Failure-Aware Meta-Agentic (FAMA) framework. FAMA operates in two stages: first, it analyzes failure trajectories from baseline agents to identify the most prevalent errors; second, it employs an orchestration mechanism that activates a minimal subset of specialized agents tailored to address these failures by injecting a targeted context for the tool-use agent before the decision-making step. Experiments across open-source LLMs demonstrate performance gains up to 27% across evaluation modes over standard baselines. These results highlight that targeted curation of context through specialized agents to address common failures is a valuable design principle for building reliable, multi-turn tool-use LLM agents that simulate real-world conversational scenarios.

FAMA: Метаагентный фреймворк с учетом сбоев для открытых LLM в интерактивных средах с использованием инструментов

FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments

Аннотация

Support