Hacia un Razonamiento Efectivo Integrado con Herramientas mediante el Aprendizaje de Preferencias Auto-Evolucionado
Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning
September 27, 2025
Autores: Yifei Chen, Guanting Dong, Zhicheng Dou
cs.AI
Resumen
El Razonamiento Integrado con Herramientas (TIR, por sus siglas en inglés) permite que los modelos de lenguaje de gran escala (LLMs) mejoren su capacidad de razonamiento interno mediante la integración de herramientas externas. Sin embargo, los modelos que emplean TIR suelen exhibir comportamientos subóptimos, como un uso insuficiente o excesivo de herramientas y una sobrecarga de pensamiento después de las llamadas a herramientas. El desafío de incentivar a los LLMs para que realicen TIR de manera eficiente y precisa, mientras se estabiliza el proceso de razonamiento, sigue siendo una pregunta abierta. En este artículo, comenzamos explorando el impacto de las llamadas a herramientas en el razonamiento del modelo desde la perspectiva de la entropía de la información. Nuestros hallazgos indican que los resultados de las llamadas a herramientas provocan un cambio distintivo en la entropía de la información del razonamiento posterior, con la entropía general de la cadena de razonamiento variando según el número de llamadas a herramientas. Basándonos en estas observaciones, proponemos Tool-Light, un marco diseñado para fomentar que los LLMs realicen TIR de manera eficiente y precisa. Nuestro marco incluye la construcción de conjuntos de datos y un ajuste fino en múltiples etapas. Para la construcción de conjuntos de datos, empleamos un muestreo continuo autoevolutivo utilizando el modelo ajustado, integrando tanto el muestreo estándar como el muestreo guiado por entropía. Además, establecemos criterios estrictos para la selección de pares positivo-negativos durante el muestreo. El proceso de entrenamiento implica un enfoque de dos etapas, que comprende el Ajuste Fino Supervisado (SFT) y la Optimización Directa de Preferencias Autoevolutiva (DPO). Los resultados experimentales en 10 conjuntos de datos demuestran la efectividad de Tool-Light, mejorando significativamente la eficiencia del modelo en la ejecución de tareas de TIR.
English
Tool-Integrated Reasoning (TIR) enables large language models (LLMs) to
improve their internal reasoning ability by integrating external tools.
However, models employing TIR often display suboptimal behaviors, such as
insufficient or excessive tool usage and overthinking after tool calls. The
challenge of incentivizing LLMs to perform TIR efficiently and accurately,
while stabilizing the reasoning process, remains an open question. In this
paper, we start by exploring the impact of tool calls on model reasoning from
the perspective of information entropy. Our findings indicate that tool call
results lead to a distinct change in the information entropy of subsequent
reasoning, with the overall entropy of the reasoning chain varying based on the
number of tool calls. Building on these insights, we propose Tool-Light, a
framework designed to encourage LLMs to perform TIR efficiently and accurately.
Our framework includes dataset construction and multi-stage fine-tuning. For
dataset construction, we employ continuous self-evolved sampling using the
fine-tuned model, integrating both vanilla sampling and entropy-guided
sampling. Besides, we establish strict criteria for selecting positive-negative
pairs during sampling. The training process involves a two-stage approach,
comprising Supervised Fine-Tuning (SFT) and Self-Evolved Direct Preference
Optimization (DPO). Experimental results on 10 datasets demonstrate the
effectiveness of Tool-Light, significantly improving the model's efficiency in
executing TIR tasks.