FAMA: Ein fehlertolerantes Meta-Agenten-Framework für Open-Source-LLMs in interaktiven Werkzeugnutzungsumgebungen

Zusammenfassung

Große Sprachmodelle werden zunehmend als Entscheidungskern autonomer Agenten eingesetzt, die in der Lage sind, Veränderungen in externen Umgebungen zu bewirken. Dennoch scheitern diese Agenten in konversationellen Benchmarks, die realweltliche, kundenorientierte Problemlösungsszenarien simulieren, häufig an den kaskadierenden Effekten fehlerhafter Entscheidungsfindung. Diese Herausforderungen sind besonders ausgeprägt bei Open-Source-LLMs mit geringeren Parameterzahlen, begrenzten Kontextfenstern und eingeschränkten Inferenzbudgets, was zu einer erhöhten Fehlerakkumulation in agentenbasierten Settings führt. Um diese Herausforderungen zu bewältigen, stellen wir das Failure-Aware Meta-Agentic (FAMA) Framework vor. FAMA operiert in zwei Stufen: Zuerst analysiert es Fehlerverläufe von Basisagenten, um die häufigsten Fehler zu identifizieren; zweitens setzt es einen Orchestrierungsmechanismus ein, der eine minimale Teilmenge spezialisierter Agenten aktiviert, die darauf ausgelegt sind, diese Fehler zu beheben, indem vor dem Entscheidungsschritt ein gezielter Kontext für den Werkzeugnutzungs-Agenten injiziert wird. Experimente mit verschiedenen Open-Source-LLMs zeigen Leistungssteigerungen von bis zu 27 % über verschiedene Evaluierungsmodi hinweg im Vergleich zu Standard-Baselines. Diese Ergebnisse unterstreichen, dass die gezielte Aufbereitung von Kontext durch spezialisierte Agenten zur Behebung häufiger Fehler ein wertvolles Gestaltungsprinzip für den Aufbau zuverlässiger, mehrstufiger LLM-Agenten mit Werkzeugnutzung darstellt, die realweltliche Konversationsszenarien simulieren.

English

Large Language Models are being increasingly deployed as the decision-making core of autonomous agents capable of effecting change in external environments. Yet, in conversational benchmarks, which simulate real-world customer-centric issue resolution scenarios, these agents frequently fail due to the cascading effects of incorrect decision-making. These challenges are particularly pronounced for open-source LLMs with smaller parameter sizes, limited context windows, and constrained inference budgets, which contribute to increased error accumulation in agentic settings. To tackle these challenges, we present the Failure-Aware Meta-Agentic (FAMA) framework. FAMA operates in two stages: first, it analyzes failure trajectories from baseline agents to identify the most prevalent errors; second, it employs an orchestration mechanism that activates a minimal subset of specialized agents tailored to address these failures by injecting a targeted context for the tool-use agent before the decision-making step. Experiments across open-source LLMs demonstrate performance gains up to 27% across evaluation modes over standard baselines. These results highlight that targeted curation of context through specialized agents to address common failures is a valuable design principle for building reliable, multi-turn tool-use LLM agents that simulate real-world conversational scenarios.

FAMA: Ein fehlertolerantes Meta-Agenten-Framework für Open-Source-LLMs in interaktiven Werkzeugnutzungsumgebungen

FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments

Zusammenfassung

Support