Modelos de agente: Internalizando a geração de cadeias de ação em modelos de raciocínio
Agent models: Internalizing Chain-of-Action Generation into Reasoning models
March 9, 2025
Autores: Yuxiang Zhang, Yuqi Yang, Jiangming Shu, Xinyan Wen, Jitao Sang
cs.AI
Resumo
Os fluxos de trabalho agentes tradicionais dependem de prompts externos para gerenciar interações com ferramentas e o ambiente, o que limita a autonomia dos modelos de raciocínio. Propomos os Modelos de Agentes de Grande Escala (LAMs, na sigla em inglês), que internalizam a geração de Cadeias de Ação (CoA, na sigla em inglês), permitindo que o modelo decida de forma autônoma quando e como usar ferramentas externas. Nosso framework AutoCoA combina ajuste fino supervisionado (SFT, na sigla em inglês) e aprendizado por reforço (RL, na sigla em inglês), permitindo que o modelo alterne de forma contínua entre raciocínio e ação, ao mesmo tempo que gerencia eficientemente as interações com o ambiente. Os principais componentes incluem a ativação de ações em nível de etapa, a otimização de CoA em nível de trajetória e um modelo de mundo interno para reduzir os custos de interação com o ambiente real. Avaliações em tarefas de perguntas e respostas de domínio aberto demonstram que os modelos agentes treinados com AutoCoA superam significativamente os fluxos de trabalho baseados em ReAct na conclusão de tarefas, especialmente em tarefas que exigem raciocínio de longo prazo e ações em múltiplas etapas. O código e o conjunto de dados estão disponíveis em https://github.com/ADaM-BJTU/AutoCoA.
English
Traditional agentic workflows rely on external prompts to manage interactions
with tools and the environment, which limits the autonomy of reasoning models.
We position Large Agent Models (LAMs) that internalize the generation of
Chain-of-Action (CoA), enabling the model to autonomously decide when
and how to use external tools. Our proposed AutoCoA framework combines
supervised fine-tuning (SFT) and reinforcement learning (RL), allowing the
model to seamlessly switch between reasoning and action while efficiently
managing environment interactions. Main components include step-level action
triggering, trajectory-level CoA optimization, and an internal world model to
reduce real-environment interaction costs. Evaluations on open-domain QA tasks
demonstrate that AutoCoA-trained agent models significantly outperform
ReAct-based workflows in task completion, especially in tasks that require
long-term reasoning and multi-step actions. Code and dataset are available at
https://github.com/ADaM-BJTU/AutoCoASummary
AI-Generated Summary