ChatPaper.aiChatPaper

Модели агентов: Интеграция генерации цепочки действий в модели рассуждений

Agent models: Internalizing Chain-of-Action Generation into Reasoning models

March 9, 2025
Авторы: Yuxiang Zhang, Yuqi Yang, Jiangming Shu, Xinyan Wen, Jitao Sang
cs.AI

Аннотация

Традиционные агентные подходы полагаются на внешние подсказки для управления взаимодействиями с инструментами и окружающей средой, что ограничивает автономность моделей рассуждений. Мы предлагаем концепцию Больших Агентных Моделей (LAMs), которые интериоризируют генерацию Цепочки Действий (CoA), позволяя модели автономно решать, когда и как использовать внешние инструменты. Наша предложенная структура AutoCoA сочетает контролируемую тонкую настройку (SFT) и обучение с подкреплением (RL), что позволяет модели плавно переключаться между рассуждениями и действиями, эффективно управляя взаимодействиями с окружающей средой. Основные компоненты включают триггеры действий на уровне шагов, оптимизацию CoA на уровне траекторий и внутреннюю модель мира для снижения затрат на взаимодействие с реальной средой. Оценки на задачах открытого домена вопросов и ответов демонстрируют, что модели, обученные с использованием AutoCoA, значительно превосходят подходы, основанные на ReAct, в выполнении задач, особенно в тех, которые требуют долгосрочных рассуждений и многошаговых действий. Код и набор данных доступны по адресу https://github.com/ADaM-BJTU/AutoCoA.
English
Traditional agentic workflows rely on external prompts to manage interactions with tools and the environment, which limits the autonomy of reasoning models. We position Large Agent Models (LAMs) that internalize the generation of Chain-of-Action (CoA), enabling the model to autonomously decide when and how to use external tools. Our proposed AutoCoA framework combines supervised fine-tuning (SFT) and reinforcement learning (RL), allowing the model to seamlessly switch between reasoning and action while efficiently managing environment interactions. Main components include step-level action triggering, trajectory-level CoA optimization, and an internal world model to reduce real-environment interaction costs. Evaluations on open-domain QA tasks demonstrate that AutoCoA-trained agent models significantly outperform ReAct-based workflows in task completion, especially in tasks that require long-term reasoning and multi-step actions. Code and dataset are available at https://github.com/ADaM-BJTU/AutoCoA

Summary

AI-Generated Summary

PDF173March 11, 2025