FAMA : Cadre méta-agentique conscient des défaillances pour les LLM open-source dans les environnements interactifs d'utilisation d'outils

Résumé

Les grands modèles de langage sont de plus en plus déployés comme noyau décisionnel d'agents autonomes capables d'opérer des changements dans des environnements externes. Pourtant, dans les benchmarks conversationnels, qui simulent des scénarios de résolution de problèmes centrés sur le client, ces agents échouent fréquemment en raison des effets en cascade d'une prise de décision incorrecte. Ces défis sont particulièrement prononcés pour les LLM open-source de plus petite taille, dotés de fenêtres de contexte limitées et de budgets d'inférence contraints, ce qui contribue à une accumulation accrue d'erreurs dans des contextes agentiques. Pour relever ces défis, nous présentons le cadre Failure-Aware Meta-Agentic (FAMA). FAMA opère en deux étapes : premièrement, il analyse les trajectoires d'échec d'agents de référence pour identifier les erreurs les plus fréquentes ; deuxièmement, il emploie un mécanisme d'orchestration qui active un sous-ensemble minimal d'agents spécialisés, conçus pour remédier à ces échecs en injectant un contexte ciblé à l'agent utilisant des outils avant l'étape de prise de décision. Les expériences menées sur divers LLM open-source démontrent des gains de performance allant jusqu'à 27 % par rapport aux références standard. Ces résultats soulignent que la curation ciblée du contexte via des agents spécialisés pour adresser les échecs courants est un principe de conception précieux pour construire des agents LLM fiables, multi-tours et utilisant des outils, qui simulent des scénarios conversationnels réalistes.

English

Large Language Models are being increasingly deployed as the decision-making core of autonomous agents capable of effecting change in external environments. Yet, in conversational benchmarks, which simulate real-world customer-centric issue resolution scenarios, these agents frequently fail due to the cascading effects of incorrect decision-making. These challenges are particularly pronounced for open-source LLMs with smaller parameter sizes, limited context windows, and constrained inference budgets, which contribute to increased error accumulation in agentic settings. To tackle these challenges, we present the Failure-Aware Meta-Agentic (FAMA) framework. FAMA operates in two stages: first, it analyzes failure trajectories from baseline agents to identify the most prevalent errors; second, it employs an orchestration mechanism that activates a minimal subset of specialized agents tailored to address these failures by injecting a targeted context for the tool-use agent before the decision-making step. Experiments across open-source LLMs demonstrate performance gains up to 27% across evaluation modes over standard baselines. These results highlight that targeted curation of context through specialized agents to address common failures is a valuable design principle for building reliable, multi-turn tool-use LLM agents that simulate real-world conversational scenarios.

FAMA : Cadre méta-agentique conscient des défaillances pour les LLM open-source dans les environnements interactifs d'utilisation d'outils

FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments

Résumé

Support