ChatPaper.aiChatPaper

FAMA: 상호작용형 도구 사용 환경에서 오픈소스 LLM을 위한 실패 인식 메타 에이전트 프레임워크

FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments

April 28, 2026
저자: Amir Saeidi, Venkatesh Mishra, Souradeep Mukhopadhyay, Gaowen Liu, Ali Payani, Jayanth Srinivasa, Chitta Baral
cs.AI

초록

대규모 언어 모델은 외부 환경에 변화를 일으킬 수 있는 자율 에이전트의 의사결정 핵심으로 점차 더 많이 배포되고 있습니다. 그러나 현실 세계의 고객 중심 문제 해결 시나리오를 모방한 대화형 벤치마크에서 이러한 에이전트들은 잘못된 의사결정의 연쇄 효과로 인해 종종 실패합니다. 이러한 과제는 매개변수 규모가 작고, 컨텍스트 창이 제한적이며, 추론 예산이 제약된 오픈소스 LLM에서 특히 두드러집니다. 이러한 요소들은 에이전트 환경에서 오류 누적을 증가시키는 원인이 됩니다. 이러한 과제를 해결하기 위해 우리는 실패 인식 메타 에이전트(FAMA) 프레임워크를 제시합니다. FAMA는 두 단계로 운영됩니다. 첫째, 기준 에이전트들의 실패 궤적을 분석하여 가장 빈번한 오류를 식별합니다. 둘째, 오케스트레이션 메커니즘을 통해 이러한 실패를 해결하도록 특화된 전문 에이전트들의 최소 집합을 활성화하며, 이는 의사결정 단계 이전에 도구 사용 에이전트를 위해 표적화된 컨텍스트를 주입하는 방식입니다. 다양한 오픈소스 LLM을 대상으로 한 실험 결과, 표준 기준선 대비 최대 27%의 성능 향상을 모든 평가 모드에서 확인했습니다. 이러한 결과는 일반적인 실패를 해결하기 위해 특화된 에이전트를 통해 컨텍스트를 표적적으로 선별하는 것이 현실 세계 대화 시나리오를 모방한 신뢰할 수 있는 다중 턴 도구 사용 LLM 에이전트를 구축하는 데 있어 가치 있는 설계 원칙임을 보여줍니다.
English
Large Language Models are being increasingly deployed as the decision-making core of autonomous agents capable of effecting change in external environments. Yet, in conversational benchmarks, which simulate real-world customer-centric issue resolution scenarios, these agents frequently fail due to the cascading effects of incorrect decision-making. These challenges are particularly pronounced for open-source LLMs with smaller parameter sizes, limited context windows, and constrained inference budgets, which contribute to increased error accumulation in agentic settings. To tackle these challenges, we present the Failure-Aware Meta-Agentic (FAMA) framework. FAMA operates in two stages: first, it analyzes failure trajectories from baseline agents to identify the most prevalent errors; second, it employs an orchestration mechanism that activates a minimal subset of specialized agents tailored to address these failures by injecting a targeted context for the tool-use agent before the decision-making step. Experiments across open-source LLMs demonstrate performance gains up to 27% across evaluation modes over standard baselines. These results highlight that targeted curation of context through specialized agents to address common failures is a valuable design principle for building reliable, multi-turn tool-use LLM agents that simulate real-world conversational scenarios.
PDF61May 1, 2026