ChatPaper.aiChatPaper

Agentmodellen: Het internaliseren van keten-van-actie-generatie in redeneermodellen

Agent models: Internalizing Chain-of-Action Generation into Reasoning models

March 9, 2025
Auteurs: Yuxiang Zhang, Yuqi Yang, Jiangming Shu, Xinyan Wen, Jitao Sang
cs.AI

Samenvatting

Traditionele agent-gebaseerde workflows vertrouwen op externe prompts om interacties met tools en de omgeving te beheren, wat de autonomie van redeneermodellen beperkt. Wij positioneren Large Agent Models (LAMs) die het genereren van een Chain-of-Action (CoA) internaliseren, waardoor het model autonoom kan beslissen wanneer en hoe externe tools te gebruiken. Ons voorgestelde AutoCoA-framework combineert supervised fine-tuning (SFT) en reinforcement learning (RL), waardoor het model naadloos kan schakelen tussen redeneren en actie terwijl het efficiënt omgevingsinteracties beheert. Belangrijke componenten zijn stapgewijze actietriggering, trajectniveau CoA-optimalisatie en een intern wereldmodel om de kosten van interacties met de echte omgeving te verminderen. Evaluaties op open-domein QA-taken tonen aan dat met AutoCoA getrainde agentmodellen aanzienlijk beter presteren dan ReAct-gebaseerde workflows in taakvoltooiing, vooral bij taken die langetermijnredenering en meerdere stappen vereisen. Code en dataset zijn beschikbaar op https://github.com/ADaM-BJTU/AutoCoA.
English
Traditional agentic workflows rely on external prompts to manage interactions with tools and the environment, which limits the autonomy of reasoning models. We position Large Agent Models (LAMs) that internalize the generation of Chain-of-Action (CoA), enabling the model to autonomously decide when and how to use external tools. Our proposed AutoCoA framework combines supervised fine-tuning (SFT) and reinforcement learning (RL), allowing the model to seamlessly switch between reasoning and action while efficiently managing environment interactions. Main components include step-level action triggering, trajectory-level CoA optimization, and an internal world model to reduce real-environment interaction costs. Evaluations on open-domain QA tasks demonstrate that AutoCoA-trained agent models significantly outperform ReAct-based workflows in task completion, especially in tasks that require long-term reasoning and multi-step actions. Code and dataset are available at https://github.com/ADaM-BJTU/AutoCoA

Summary

AI-Generated Summary

PDF173March 11, 2025