FAMA: Framework Meta-Agente con Consapevolezza degli Errori per LLM Open-Source in Ambienti Interattivi di Utilizzo di Strumenti

Abstract

I modelli linguistici di grandi dimensioni vengono sempre più impiegati come nucleo decisionale di agenti autonomi in grado di apportare cambiamenti negli ambienti esterni. Tuttavia, nei benchmark conversazionali, che simulano scenari reali di risoluzione di problemi centrati sul cliente, questi agenti falliscono frequentemente a causa degli effetti a cascata di un processo decisionale errato. Queste sfide sono particolarmente evidenti per gli LLM open-source con dimensioni parametriche ridotte, finestre di contesto limitate e budget inferenziali ristretti, che contribuiscono a un aumento dell'accumulo di errori in contesti agentici. Per affrontare queste sfide, presentiamo il framework Failure-Aware Meta-Agentic (FAMA). FAMA opera in due fasi: prima analizza le traiettorie di fallimento degli agenti baseline per identificare gli errori più frequenti; successivamente, impiega un meccanismo di orchestrazione che attiva un sottoinsieme minimo di agenti specializzati, progettati per affrontare questi fallimenti iniettando un contesto mirato per l'agente di uso degli strumenti prima della fase decisionale. Esperimenti condotti su vari LLM open-source dimostrano miglioramenti delle prestazioni fino al 27% nelle diverse modalità di valutazione rispetto ai baseline standard. Questi risultati evidenziano come la cura mirata del contesto tramite agenti specializzati per affrontare errori comuni sia un principio di progettazione valido per costruire agenti LLM affidabili, multi-turno e abilitati all'uso di strumenti, che simulino scenari conversazionali realistici.

English

Large Language Models are being increasingly deployed as the decision-making core of autonomous agents capable of effecting change in external environments. Yet, in conversational benchmarks, which simulate real-world customer-centric issue resolution scenarios, these agents frequently fail due to the cascading effects of incorrect decision-making. These challenges are particularly pronounced for open-source LLMs with smaller parameter sizes, limited context windows, and constrained inference budgets, which contribute to increased error accumulation in agentic settings. To tackle these challenges, we present the Failure-Aware Meta-Agentic (FAMA) framework. FAMA operates in two stages: first, it analyzes failure trajectories from baseline agents to identify the most prevalent errors; second, it employs an orchestration mechanism that activates a minimal subset of specialized agents tailored to address these failures by injecting a targeted context for the tool-use agent before the decision-making step. Experiments across open-source LLMs demonstrate performance gains up to 27% across evaluation modes over standard baselines. These results highlight that targeted curation of context through specialized agents to address common failures is a valuable design principle for building reliable, multi-turn tool-use LLM agents that simulate real-world conversational scenarios.

FAMA: Framework Meta-Agente con Consapevolezza degli Errori per LLM Open-Source in Ambienti Interattivi di Utilizzo di Strumenti

FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments

Abstract

Support