Modelos de agentes: Internalización de la generación de cadenas de acción en modelos de razonamiento
Agent models: Internalizing Chain-of-Action Generation into Reasoning models
March 9, 2025
Autores: Yuxiang Zhang, Yuqi Yang, Jiangming Shu, Xinyan Wen, Jitao Sang
cs.AI
Resumen
Los flujos de trabajo agentes tradicionales dependen de indicaciones externas para gestionar las interacciones con herramientas y el entorno, lo que limita la autonomía de los modelos de razonamiento. Nos posicionamos con los Modelos de Agentes a Gran Escala (LAMs, por sus siglas en inglés) que internalizan la generación de Cadenas de Acción (CoA, por sus siglas en inglés), permitiendo que el modelo decida de manera autónoma cuándo y cómo utilizar herramientas externas. Nuestro marco propuesto, AutoCoA, combina ajuste fino supervisado (SFT) y aprendizaje por refuerzo (RL), permitiendo que el modelo cambie sin problemas entre razonamiento y acción mientras gestiona eficientemente las interacciones con el entorno. Los componentes principales incluyen la activación de acciones a nivel de paso, la optimización de CoA a nivel de trayectoria y un modelo interno del mundo para reducir los costos de interacción con el entorno real. Las evaluaciones en tareas de preguntas y respuestas de dominio abierto demuestran que los modelos agentes entrenados con AutoCoA superan significativamente a los flujos de trabajo basados en ReAct en la finalización de tareas, especialmente en aquellas que requieren razonamiento a largo plazo y acciones de múltiples pasos. El código y el conjunto de datos están disponibles en https://github.com/ADaM-BJTU/AutoCoA.
English
Traditional agentic workflows rely on external prompts to manage interactions
with tools and the environment, which limits the autonomy of reasoning models.
We position Large Agent Models (LAMs) that internalize the generation of
Chain-of-Action (CoA), enabling the model to autonomously decide when
and how to use external tools. Our proposed AutoCoA framework combines
supervised fine-tuning (SFT) and reinforcement learning (RL), allowing the
model to seamlessly switch between reasoning and action while efficiently
managing environment interactions. Main components include step-level action
triggering, trajectory-level CoA optimization, and an internal world model to
reduce real-environment interaction costs. Evaluations on open-domain QA tasks
demonstrate that AutoCoA-trained agent models significantly outperform
ReAct-based workflows in task completion, especially in tasks that require
long-term reasoning and multi-step actions. Code and dataset are available at
https://github.com/ADaM-BJTU/AutoCoASummary
AI-Generated Summary