FAMA: Marco Meta-Agéntico Consciente de Fallos para LLMs de Código Abierto en Entornos Interactivos de Uso de Herramientas

Resumen

Los Modelos de Lenguaje Grandes (LLMs) se están desplegando cada vez más como núcleo de toma de decisiones de agentes autónomos capaces de efectuar cambios en entornos externos. Sin embargo, en evaluaciones conversacionales, que simulan escenarios de resolución de problemas centrados en el cliente del mundo real, estos agentes fracasan con frecuencia debido a los efectos en cascada de una toma de decisiones incorrecta. Estos desafíos son particularmente pronunciados en LLMs de código abierto con tamaños de parámetros más pequeños, ventanas de contexto limitadas y presupuestos de inferencia restringidos, lo que contribuye a una mayor acumulación de errores en entornos agentivos. Para abordar estos desafíos, presentamos el marco Meta-Agéntico Consciente de Fallos (FAMA). FAMA opera en dos etapas: primero, analiza las trayectorias de fallo de agentes base para identificar los errores más prevalentes; segundo, emplea un mecanismo de orquestación que activa un subconjunto mínimo de agentes especializados diseñados para abordar estos fallos, inyectando un contexto específico para el agente de uso de herramientas antes del paso de toma de decisiones. Los experimentos realizados con diversos LLMs de código abierto demuestran mejoras de rendimiento de hasta el 27% en distintos modos de evaluación con respecto a los métodos base estándar. Estos resultados destacan que la curación dirigida de contexto mediante agentes especializados para abordar fallos comunes es un principio de diseño valioso para construir agentes LLM de uso de herramientas confiables y multi-turno que simulen escenarios conversacionales del mundo real.

English

Large Language Models are being increasingly deployed as the decision-making core of autonomous agents capable of effecting change in external environments. Yet, in conversational benchmarks, which simulate real-world customer-centric issue resolution scenarios, these agents frequently fail due to the cascading effects of incorrect decision-making. These challenges are particularly pronounced for open-source LLMs with smaller parameter sizes, limited context windows, and constrained inference budgets, which contribute to increased error accumulation in agentic settings. To tackle these challenges, we present the Failure-Aware Meta-Agentic (FAMA) framework. FAMA operates in two stages: first, it analyzes failure trajectories from baseline agents to identify the most prevalent errors; second, it employs an orchestration mechanism that activates a minimal subset of specialized agents tailored to address these failures by injecting a targeted context for the tool-use agent before the decision-making step. Experiments across open-source LLMs demonstrate performance gains up to 27% across evaluation modes over standard baselines. These results highlight that targeted curation of context through specialized agents to address common failures is a valuable design principle for building reliable, multi-turn tool-use LLM agents that simulate real-world conversational scenarios.

FAMA: Marco Meta-Agéntico Consciente de Fallos para LLMs de Código Abierto en Entornos Interactivos de Uso de Herramientas

FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments

Resumen

Support