ChatPaper.aiChatPaper

에이전트 모델: 행동 체인 생성을 추론 모델 내부화하기

Agent models: Internalizing Chain-of-Action Generation into Reasoning models

March 9, 2025
저자: Yuxiang Zhang, Yuqi Yang, Jiangming Shu, Xinyan Wen, Jitao Sang
cs.AI

초록

기존의 에이전트 워크플로우는 도구 및 환경과의 상호작용을 관리하기 위해 외부 프롬프트에 의존함으로써, 추론 모델의 자율성을 제한합니다. 우리는 체인 오브 액션(CoA) 생성을 내재화한 대형 에이전트 모델(LAMs)을 제안하며, 이를 통해 모델이 외부 도구를 언제 어떻게 사용할지 자율적으로 결정할 수 있도록 합니다. 우리가 제안한 AutoCoA 프레임워크는 지도 미세 조정(SFT)과 강화 학습(RL)을 결합하여, 모델이 추론과 행동 사이를 원활하게 전환하면서도 환경 상호작용을 효율적으로 관리할 수 있게 합니다. 주요 구성 요소로는 단계별 액션 트리거링, 궤적 수준의 CoA 최적화, 그리고 실제 환경 상호작용 비용을 줄이기 위한 내부 세계 모델이 포함됩니다. 개방형 도메인 질의응답(QA) 작업에 대한 평가 결과, AutoCoA로 훈련된 에이전트 모델이 ReAct 기반 워크플로우를 크게 능가하며, 특히 장기적 추론과 다단계 행동이 필요한 작업에서 뛰어난 성능을 보였습니다. 코드와 데이터셋은 https://github.com/ADaM-BJTU/AutoCoA에서 확인할 수 있습니다.
English
Traditional agentic workflows rely on external prompts to manage interactions with tools and the environment, which limits the autonomy of reasoning models. We position Large Agent Models (LAMs) that internalize the generation of Chain-of-Action (CoA), enabling the model to autonomously decide when and how to use external tools. Our proposed AutoCoA framework combines supervised fine-tuning (SFT) and reinforcement learning (RL), allowing the model to seamlessly switch between reasoning and action while efficiently managing environment interactions. Main components include step-level action triggering, trajectory-level CoA optimization, and an internal world model to reduce real-environment interaction costs. Evaluations on open-domain QA tasks demonstrate that AutoCoA-trained agent models significantly outperform ReAct-based workflows in task completion, especially in tasks that require long-term reasoning and multi-step actions. Code and dataset are available at https://github.com/ADaM-BJTU/AutoCoA

Summary

AI-Generated Summary

PDF173March 11, 2025