Modelli di agenti: Internalizzazione della generazione di catene di azioni nei modelli di ragionamento
Agent models: Internalizing Chain-of-Action Generation into Reasoning models
March 9, 2025
Autori: Yuxiang Zhang, Yuqi Yang, Jiangming Shu, Xinyan Wen, Jitao Sang
cs.AI
Abstract
I flussi di lavoro agentici tradizionali si basano su prompt esterni per gestire le interazioni con strumenti e ambiente, limitando l'autonomia dei modelli di ragionamento. Proponiamo i Large Agent Models (LAMs) che internalizzano la generazione di una Catena di Azioni (Chain-of-Action, CoA), consentendo al modello di decidere autonomamente quando e come utilizzare strumenti esterni. Il nostro framework AutoCoA combina fine-tuning supervisionato (SFT) e apprendimento per rinforzo (RL), permettendo al modello di passare fluidamente tra ragionamento e azione, gestendo in modo efficiente le interazioni con l'ambiente. I componenti principali includono l'attivazione delle azioni a livello di passo, l'ottimizzazione della CoA a livello di traiettoria e un modello interno del mondo per ridurre i costi delle interazioni con l'ambiente reale. Le valutazioni su task di domanda-risposta a dominio aperto dimostrano che i modelli agentici addestrati con AutoCoA superano significativamente i flussi di lavoro basati su ReAct nel completamento dei task, specialmente in quelli che richiedono ragionamento a lungo termine e azioni multi-step. Codice e dataset sono disponibili all'indirizzo https://github.com/ADaM-BJTU/AutoCoA.
English
Traditional agentic workflows rely on external prompts to manage interactions
with tools and the environment, which limits the autonomy of reasoning models.
We position Large Agent Models (LAMs) that internalize the generation of
Chain-of-Action (CoA), enabling the model to autonomously decide when
and how to use external tools. Our proposed AutoCoA framework combines
supervised fine-tuning (SFT) and reinforcement learning (RL), allowing the
model to seamlessly switch between reasoning and action while efficiently
managing environment interactions. Main components include step-level action
triggering, trajectory-level CoA optimization, and an internal world model to
reduce real-environment interaction costs. Evaluations on open-domain QA tasks
demonstrate that AutoCoA-trained agent models significantly outperform
ReAct-based workflows in task completion, especially in tasks that require
long-term reasoning and multi-step actions. Code and dataset are available at
https://github.com/ADaM-BJTU/AutoCoASummary
AI-Generated Summary