Modèles d'agents : Intégration de la génération de chaînes d'actions dans les modèles de raisonnement
Agent models: Internalizing Chain-of-Action Generation into Reasoning models
March 9, 2025
Auteurs: Yuxiang Zhang, Yuqi Yang, Jiangming Shu, Xinyan Wen, Jitao Sang
cs.AI
Résumé
Les workflows agentiques traditionnels s'appuient sur des prompts externes pour gérer les interactions avec les outils et l'environnement, ce qui limite l'autonomie des modèles de raisonnement. Nous positionnons les Large Agent Models (LAMs) qui internalisent la génération de Chain-of-Action (CoA), permettant au modèle de décider de manière autonome quand et comment utiliser des outils externes. Notre framework AutoCoA proposé combine un fine-tuning supervisé (SFT) et un apprentissage par renforcement (RL), permettant au modèle de passer de manière fluide entre le raisonnement et l'action tout en gérant efficacement les interactions avec l'environnement. Les composants principaux incluent un déclenchement d'actions au niveau des étapes, une optimisation de CoA au niveau de la trajectoire, et un modèle interne du monde pour réduire les coûts d'interaction avec l'environnement réel. Les évaluations sur des tâches de question-réponse en domaine ouvert démontrent que les modèles agentiques entraînés avec AutoCoA surpassent significativement les workflows basés sur ReAct en termes de réussite des tâches, en particulier pour les tâches nécessitant un raisonnement à long terme et des actions multi-étapes. Le code et le jeu de données sont disponibles à l'adresse https://github.com/ADaM-BJTU/AutoCoA.
English
Traditional agentic workflows rely on external prompts to manage interactions
with tools and the environment, which limits the autonomy of reasoning models.
We position Large Agent Models (LAMs) that internalize the generation of
Chain-of-Action (CoA), enabling the model to autonomously decide when
and how to use external tools. Our proposed AutoCoA framework combines
supervised fine-tuning (SFT) and reinforcement learning (RL), allowing the
model to seamlessly switch between reasoning and action while efficiently
managing environment interactions. Main components include step-level action
triggering, trajectory-level CoA optimization, and an internal world model to
reduce real-environment interaction costs. Evaluations on open-domain QA tasks
demonstrate that AutoCoA-trained agent models significantly outperform
ReAct-based workflows in task completion, especially in tasks that require
long-term reasoning and multi-step actions. Code and dataset are available at
https://github.com/ADaM-BJTU/AutoCoASummary
AI-Generated Summary