ChatPaper.aiChatPaper

ET-Agent: Stimulering van Effectieve Gereedschapsgeïntegreerde Redeneeragenten via Gedragskalibratie

ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration

January 11, 2026
Auteurs: Yifei Chen, Guanting Dong, Zhicheng Dou
cs.AI

Samenvatting

Grote Taalmodellen (LLM's) kunnen hun parametrische kennismogelijkheden uitbreiden door het Tool-Integrated Reasoning (TIR)-paradigma toe te passen. Bestaande op LLM's gebaseerde agent-trainingsframeworks richten zich echter vaak op de nauwkeurigheid van antwoorden, waarbij specifieke afstemming op gedragspatronen wordt verwaarloosd. Hierdoor vertonen agenten vaak inefficiënte acties tijdens TIR-taken, zoals overbodige en ontoereikende toolaanroepen. Het kalibreren van foutieve gedragspatronen bij de uitvoering van TIR-taken, om zo effectieve trajecten te verkennen, blijft een open vraagstuk. In dit artikel stellen we ET-Agent voor, een trainingsframework voor het kalibreren van het toolgebruiksgedrag van agenten via twee synergetische perspectieven: Self-evolving Data Flywheel en Behavior Calibration Training. Concreet introduceren we een zelf-evolutionaire dataflywheel om versterkte data te genereren, die wordt gebruikt om het LLM te finetunen en zo diens verkennend vermogen te verbeteren. Hierop voortbordurend implementeren we een tweefasen trainingsframework voor gedragskalibratie. Dit is ontworpen om foutieve gedragspatronen progressief te kalibreren naar optimale gedragingen. Verdere diepgaande experimenten bevestigen de superioriteit van ons framework op meerdere dimensies, waaronder correctheid, efficiëntie, beknoptheid van redenering en nauwkeurigheid van tooluitvoering. Ons ET-Agent framework biedt praktische inzichten voor onderzoek in het TIR-domein. Code is beschikbaar op https://github.com/asilverlight/ET-Agent.
English
Large Language Models (LLMs) can extend their parameter knowledge limits by adopting the Tool-Integrated Reasoning (TIR) paradigm. However, existing LLM-based agent training framework often focuses on answers' accuracy, overlooking specific alignment for behavior patterns. Consequently, agent often exhibits ineffective actions during TIR tasks, such as redundant and insufficient tool calls. How to calibrate erroneous behavioral patterns when executing TIR tasks, thereby exploring effective trajectories, remains an open-ended problem. In this paper, we propose ET-Agent, a training framework for calibrating agent's tool-use behavior through two synergistic perspectives: Self-evolving Data Flywheel and Behavior Calibration Training. Specifically, we introduce a self-evolutionary data flywheel to generate enhanced data, used to fine-tune LLM to improve its exploration ability. Based on this, we implement an two-phases behavior-calibration training framework. It is designed to progressively calibrate erroneous behavioral patterns to optimal behaviors. Further in-depth experiments confirm the superiority of across multiple dimensions, including correctness, efficiency, reasoning conciseness, and tool execution accuracy. Our ET-Agent framework provides practical insights for research in the TIR field. Codes can be found in https://github.com/asilverlight/ET-Agent
PDF163January 31, 2026