FAMA: Estrutura Meta-Agêntica com Consciência de Falhas para LLMs de Código Aberto em Ambientes Interativos de Uso de Ferramentas

Resumo

Os Modelos de Linguagem de Grande Porte (LLMs) estão sendo cada vez mais implantados como núcleos de tomada de decisão para agentes autônomos capazes de efetuar mudanças em ambientes externos. No entanto, em benchmarks conversacionais, que simulam cenários do mundo real de resolução de problemas centrados no cliente, esses agentes frequentemente falham devido aos efeitos em cascata de decisões incorretas. Esses desafios são particularmente pronunciados em LLMs de código aberto com tamanhos de parâmetros menores, janelas de contexto limitadas e orçamentos de inferência restritos, o que contribui para um aumento no acúmulo de erros em configurações agentivas. Para enfrentar esses desafios, apresentamos a estrutura *Failure-Aware Meta-Agentic* (FAMA). A FAMA opera em dois estágios: primeiro, analisa trajetórias de falha de agentes de linha de base para identificar os erros mais prevalentes; segundo, emprega um mecanismo de orquestração que ativa um subconjunto mínimo de agentes especializados, projetados para abordar essas falhas, através da injeção de um contexto direcionado para o agente de uso de ferramentas antes da etapa de tomada de decisão. Experimentos com vários LLMs de código aberto demonstram ganhos de desempenho de até 27% em diferentes modos de avaliação em comparação com as linhas de base padrão. Esses resultados destacam que a curadoria direcionada de contexto por meio de agentes especializados para abordar falhas comuns é um princípio de design valioso para a construção de agentes LLM de uso de ferramentas confiáveis e multi-turno, que simulam cenários conversacionais do mundo real.

English

Large Language Models are being increasingly deployed as the decision-making core of autonomous agents capable of effecting change in external environments. Yet, in conversational benchmarks, which simulate real-world customer-centric issue resolution scenarios, these agents frequently fail due to the cascading effects of incorrect decision-making. These challenges are particularly pronounced for open-source LLMs with smaller parameter sizes, limited context windows, and constrained inference budgets, which contribute to increased error accumulation in agentic settings. To tackle these challenges, we present the Failure-Aware Meta-Agentic (FAMA) framework. FAMA operates in two stages: first, it analyzes failure trajectories from baseline agents to identify the most prevalent errors; second, it employs an orchestration mechanism that activates a minimal subset of specialized agents tailored to address these failures by injecting a targeted context for the tool-use agent before the decision-making step. Experiments across open-source LLMs demonstrate performance gains up to 27% across evaluation modes over standard baselines. These results highlight that targeted curation of context through specialized agents to address common failures is a valuable design principle for building reliable, multi-turn tool-use LLM agents that simulate real-world conversational scenarios.

FAMA: Estrutura Meta-Agêntica com Consciência de Falhas para LLMs de Código Aberto em Ambientes Interativos de Uso de Ferramentas

FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments

Resumo

Support