ET-Agent: Anreizsetzung für effektive werkzeugintegrierte Reasoning-Agenten durch Verhaltenskalibrierung
ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration
January 11, 2026
papers.authors: Yifei Chen, Guanting Dong, Zhicheng Dou
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) können ihre parametrischen Wissensgrenzen durch die Übernahme des Tool-Integrated Reasoning (TIR)-Paradigmas erweitern. Allerdings konzentrieren sich bestehende LLM-basierte Agenten-Trainingsframeworks oft auf die Genauigkeit der Antworten und übersehen dabei eine spezifische Ausrichtung auf Verhaltensmuster. Folglich zeigen Agenten bei TIR-Aufgaben häufig ineffektive Aktionen, wie redundante und unzureichende Tool-Aufrufe. Wie fehlerhafte Verhaltensmuster bei der Ausführung von TIR-Aufgaben kalibriert werden können, um effektive Trajektorien zu erkunden, bleibt ein offenes Problem. In diesem Artikel schlagen wir ET-Agent vor, ein Trainingsframework zur Kalibrierung des Tool-Nutzungsverhaltens von Agenten durch zwei synergetische Perspektiven: Selbst-evolvierendes Data Flywheel und Behavior Calibration Training. Konkret führen wir ein selbst-evolvierendes Data Flywheel ein, um verbesserte Daten zu generieren, die zur Feinabstimmung des LLM verwendet werden, um dessen Explorationsfähigkeit zu verbessern. Darauf aufbauend implementieren wir ein zweiphasiges Behavior-Calibration-Training-Framework. Dieses ist darauf ausgelegt, fehlerhafte Verhaltensmuster schrittweise auf optimale Verhaltensweisen zu kalibrieren. Weitere vertiefte Experimente bestätigen die Überlegenheit unseres Ansatzes in mehreren Dimensionen, einschließlich Korrektheit, Effizienz, Schlüssigkeit der Argumentation und Genauigkeit der Tool-Ausführung. Unser ET-Agent-Framework liefert praktische Erkenntnisse für die Forschung im TIR-Bereich. Der Code ist unter https://github.com/asilverlight/ET-Agent verfügbar.
English
Large Language Models (LLMs) can extend their parameter knowledge limits by adopting the Tool-Integrated Reasoning (TIR) paradigm. However, existing LLM-based agent training framework often focuses on answers' accuracy, overlooking specific alignment for behavior patterns. Consequently, agent often exhibits ineffective actions during TIR tasks, such as redundant and insufficient tool calls. How to calibrate erroneous behavioral patterns when executing TIR tasks, thereby exploring effective trajectories, remains an open-ended problem. In this paper, we propose ET-Agent, a training framework for calibrating agent's tool-use behavior through two synergistic perspectives: Self-evolving Data Flywheel and Behavior Calibration Training. Specifically, we introduce a self-evolutionary data flywheel to generate enhanced data, used to fine-tune LLM to improve its exploration ability. Based on this, we implement an two-phases behavior-calibration training framework. It is designed to progressively calibrate erroneous behavioral patterns to optimal behaviors. Further in-depth experiments confirm the superiority of across multiple dimensions, including correctness, efficiency, reasoning conciseness, and tool execution accuracy. Our ET-Agent framework provides practical insights for research in the TIR field. Codes can be found in https://github.com/asilverlight/ET-Agent