ET-Agente: Incentivando Agentes de Razonamiento con Herramientas Efectivas mediante Calibración Conductual
ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration
January 11, 2026
Autores: Yifei Chen, Guanting Dong, Zhicheng Dou
cs.AI
Resumen
Los Modelos de Lenguaje Grandes (LLMs) pueden extender los límites de conocimiento de sus parámetros adoptando el paradigma de Razonamiento con Integración de Herramientas (TIR). Sin embargo, los marcos de entrenamiento de agentes basados en LLM existentes a menudo se centran en la precisión de las respuestas, pasando por alto la alineación específica de los patrones de comportamiento. En consecuencia, el agente a menudo exhibe acciones ineficaces durante las tareas TIR, como llamadas a herramientas redundantes e insuficientes. Cómo calibrar los patrones de comportamiento erróneos al ejecutar tareas TIR, explorando así trayectorias efectivas, sigue siendo un problema abierto. En este artículo, proponemos ET-Agent, un marco de entrenamiento para calibrar el comportamiento de uso de herramientas del agente a través de dos perspectivas sinérgicas: la Rueda de Datos de Auto-evolución y el Entrenamiento de Calibración de Comportamiento. Específicamente, introducimos una rueda de datos auto-evolutiva para generar datos mejorados, utilizados para afinar el LLM y mejorar su capacidad de exploración. Sobre esta base, implementamos un marco de entrenamiento de calibración de comportamiento en dos fases. Está diseñado para calibrar progresivamente los patrones de comportamiento erróneos hacia comportamientos óptimos. Experimentos posteriores en profundidad confirman la superioridad del marco en múltiples dimensiones, incluyendo corrección, eficiencia, concisión del razonamiento y precisión en la ejecución de herramientas. Nuestro marco ET-Agent proporciona perspectivas prácticas para la investigación en el campo del TIR. El código puede encontrarse en https://github.com/asilverlight/ET-Agent.
English
Large Language Models (LLMs) can extend their parameter knowledge limits by adopting the Tool-Integrated Reasoning (TIR) paradigm. However, existing LLM-based agent training framework often focuses on answers' accuracy, overlooking specific alignment for behavior patterns. Consequently, agent often exhibits ineffective actions during TIR tasks, such as redundant and insufficient tool calls. How to calibrate erroneous behavioral patterns when executing TIR tasks, thereby exploring effective trajectories, remains an open-ended problem. In this paper, we propose ET-Agent, a training framework for calibrating agent's tool-use behavior through two synergistic perspectives: Self-evolving Data Flywheel and Behavior Calibration Training. Specifically, we introduce a self-evolutionary data flywheel to generate enhanced data, used to fine-tune LLM to improve its exploration ability. Based on this, we implement an two-phases behavior-calibration training framework. It is designed to progressively calibrate erroneous behavioral patterns to optimal behaviors. Further in-depth experiments confirm the superiority of across multiple dimensions, including correctness, efficiency, reasoning conciseness, and tool execution accuracy. Our ET-Agent framework provides practical insights for research in the TIR field. Codes can be found in https://github.com/asilverlight/ET-Agent