ET-Agent : Incitation à un agent de raisonnement intégrant des outils efficaces par calibrage comportemental
ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration
January 11, 2026
papers.authors: Yifei Chen, Guanting Dong, Zhicheng Dou
cs.AI
papers.abstract
Les modèles de langage de grande taille (LLM) peuvent étendre leurs limites de connaissances paramétriques en adoptant le paradigme de raisonnement à outils intégrés (TIR). Cependant, les frameworks d'entraînement d'agents existants basés sur les LLM se concentrent souvent sur la précision des réponses, négligeant l'alignement spécifique des patterns comportementaux. Par conséquent, l'agent présente souvent des actions inefficaces lors des tâches TIR, telles que des appels d'outils redondants ou insuffisants. La manière de calibrer les patterns comportementaux erronés lors de l'exécution des tâches TIR, afin d'explorer des trajectoires efficaces, reste un problème non résolu. Dans cet article, nous proposons ET-Agent, un framework d'entraînement pour calibrer le comportement d'utilisation d'outils de l'agent à travers deux perspectives synergiques : la roue de données auto-évolutive et l'entraînement par calibration comportementale. Plus précisément, nous introduisons une roue de données auto-évolutive pour générer des données améliorées, utilisées pour affiner le LLM afin d'améliorer sa capacité d'exploration. Sur cette base, nous mettons en œuvre un framework d'entraînement en deux phases pour la calibration comportementale. Il est conçu pour calibrer progressivement les patterns comportementaux erronés vers des comportements optimaux. Des expérimentations approfondies confirment la supériorité d'ET-Agent à travers de multiples dimensions, incluant la justesse, l'efficacité, la concision du raisonnement et la précision d'exécution des outils. Notre framework ET-Agent fournit des perspectives pratiques pour la recherche dans le domaine du TIR. Les codes sont disponibles sur https://github.com/asilverlight/ET-Agent
English
Large Language Models (LLMs) can extend their parameter knowledge limits by adopting the Tool-Integrated Reasoning (TIR) paradigm. However, existing LLM-based agent training framework often focuses on answers' accuracy, overlooking specific alignment for behavior patterns. Consequently, agent often exhibits ineffective actions during TIR tasks, such as redundant and insufficient tool calls. How to calibrate erroneous behavioral patterns when executing TIR tasks, thereby exploring effective trajectories, remains an open-ended problem. In this paper, we propose ET-Agent, a training framework for calibrating agent's tool-use behavior through two synergistic perspectives: Self-evolving Data Flywheel and Behavior Calibration Training. Specifically, we introduce a self-evolutionary data flywheel to generate enhanced data, used to fine-tune LLM to improve its exploration ability. Based on this, we implement an two-phases behavior-calibration training framework. It is designed to progressively calibrate erroneous behavioral patterns to optimal behaviors. Further in-depth experiments confirm the superiority of across multiple dimensions, including correctness, efficiency, reasoning conciseness, and tool execution accuracy. Our ET-Agent framework provides practical insights for research in the TIR field. Codes can be found in https://github.com/asilverlight/ET-Agent