ChatPaper.aiChatPaper

FAMA: インタラクティブツール利用環境におけるオープンソースLLMのための失敗認識メタエージェントフレームワーク

FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments

April 28, 2026
著者: Amir Saeidi, Venkatesh Mishra, Souradeep Mukhopadhyay, Gaowen Liu, Ali Payani, Jayanth Srinivasa, Chitta Baral
cs.AI

要旨

大規模言語モデルは、外部環境に変化をもたらす自律エージェントの意思決定中核として、ますます導入が進んでいる。しかし、実世界の顧客中心的な課題解決シナリオを模倣した対話型ベンチマークでは、誤った意思決定の連鎖的影響により、これらのエージェントはしばしば失敗に終わる。この課題は、パラメータ数が少なく、コンテキストウィンドウが限られ、推論予算が制約されているオープンソースのLLMにおいて特に顕著であり、エージェント環境での誤差蓄積を増大させる要因となっている。これらの課題に対処するため、我々はFailure-Aware Meta-Agentic(FAMA)フレームワークを提案する。FAMAは二段階で動作する:第一に、ベースラインエージェントの失敗軌跡を分析し、最も頻発するエラーを特定する;第二に、オーケストレーション機構を採用し、意思決定ステップ前にツール利用エージェントに対し対象を絞ったコンテキストを付与するよう設計された専門エージェントの最小サブセットを起動する。オープンソースLLMを用いた実験では、標準ベースラインに対し最大27%の性能向上が評価モード全体で確認された。これらの結果は、一般的な失敗に対処するための専門エージェントによるコンテキストの対象を絞ったキュレーションが、実世界の対話シナリオを模倣する信頼性の高いマルチターンツール利用LLMエージェントを構築するための有効な設計原則であることを示唆している。
English
Large Language Models are being increasingly deployed as the decision-making core of autonomous agents capable of effecting change in external environments. Yet, in conversational benchmarks, which simulate real-world customer-centric issue resolution scenarios, these agents frequently fail due to the cascading effects of incorrect decision-making. These challenges are particularly pronounced for open-source LLMs with smaller parameter sizes, limited context windows, and constrained inference budgets, which contribute to increased error accumulation in agentic settings. To tackle these challenges, we present the Failure-Aware Meta-Agentic (FAMA) framework. FAMA operates in two stages: first, it analyzes failure trajectories from baseline agents to identify the most prevalent errors; second, it employs an orchestration mechanism that activates a minimal subset of specialized agents tailored to address these failures by injecting a targeted context for the tool-use agent before the decision-making step. Experiments across open-source LLMs demonstrate performance gains up to 27% across evaluation modes over standard baselines. These results highlight that targeted curation of context through specialized agents to address common failures is a valuable design principle for building reliable, multi-turn tool-use LLM agents that simulate real-world conversational scenarios.
PDF61May 1, 2026