ET-Agent: Стимулирование эффективного инструментально-ориентированного рассуждающего агента через калибровку поведения
ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration
January 11, 2026
Авторы: Yifei Chen, Guanting Dong, Zhicheng Dou
cs.AI
Аннотация
Крупные языковые модели (LLM) могут расширять пределы своих параметрических знаний, применяя парадигму инструментально-интегрированного рассуждения (TIR). Однако существующие фреймворки обучения агентов на основе LLM часто сосредоточены на точности ответов, упуская из виду специфическое выравнивание поведенческих паттернов. Как следствие, агент часто демонстрирует неэффективные действия в ходе задач TIR, такие как избыточные и недостаточные вызовы инструментов. Вопрос о том, как калибровать ошибочные поведенческие паттерны при выполнении задач TIR, исследуя при этом эффективные траектории, остается открытой проблемой. В данной статье мы предлагаем ET-Agent — фреймворк обучения для калибровки поведения агента по использованию инструментов через две синергетические перспективы: Самосовершенствующийся Маховик Данных и Тренировка Калибровки Поведения. В частности, мы вводим самосовершенствующийся маховик данных для генерации улучшенных данных, используемых для тонкой настройки LLM с целью повышения её способности к исследованию. На основе этого мы реализуем двухфазный фреймворк тренировки калибровки поведения. Он предназначен для прогрессивной калибровки ошибочных поведенческих паттернов до оптимальных поведений. Дальнейшие углубленные эксперименты подтверждают превосходство ET-Agent по множеству измерений, включая корректность, эффективность, лаконичность рассуждений и точность выполнения инструментов. Наш фреймворк ET-Agent предоставляет практические идеи для исследований в области TIR. Код доступен по адресу: https://github.com/asilverlight/ET-Agent.
English
Large Language Models (LLMs) can extend their parameter knowledge limits by adopting the Tool-Integrated Reasoning (TIR) paradigm. However, existing LLM-based agent training framework often focuses on answers' accuracy, overlooking specific alignment for behavior patterns. Consequently, agent often exhibits ineffective actions during TIR tasks, such as redundant and insufficient tool calls. How to calibrate erroneous behavioral patterns when executing TIR tasks, thereby exploring effective trajectories, remains an open-ended problem. In this paper, we propose ET-Agent, a training framework for calibrating agent's tool-use behavior through two synergistic perspectives: Self-evolving Data Flywheel and Behavior Calibration Training. Specifically, we introduce a self-evolutionary data flywheel to generate enhanced data, used to fine-tune LLM to improve its exploration ability. Based on this, we implement an two-phases behavior-calibration training framework. It is designed to progressively calibrate erroneous behavioral patterns to optimal behaviors. Further in-depth experiments confirm the superiority of across multiple dimensions, including correctness, efficiency, reasoning conciseness, and tool execution accuracy. Our ET-Agent framework provides practical insights for research in the TIR field. Codes can be found in https://github.com/asilverlight/ET-Agent