Hacia un Razonamiento Efectivo Integrado con Herramientas mediante el Aprendizaje de Preferencias Auto-Evolucionado

Resumen

El Razonamiento Integrado con Herramientas (TIR, por sus siglas en inglés) permite que los modelos de lenguaje de gran escala (LLMs) mejoren su capacidad de razonamiento interno mediante la integración de herramientas externas. Sin embargo, los modelos que emplean TIR suelen exhibir comportamientos subóptimos, como un uso insuficiente o excesivo de herramientas y una sobrecarga de pensamiento después de las llamadas a herramientas. El desafío de incentivar a los LLMs para que realicen TIR de manera eficiente y precisa, mientras se estabiliza el proceso de razonamiento, sigue siendo una pregunta abierta. En este artículo, comenzamos explorando el impacto de las llamadas a herramientas en el razonamiento del modelo desde la perspectiva de la entropía de la información. Nuestros hallazgos indican que los resultados de las llamadas a herramientas provocan un cambio distintivo en la entropía de la información del razonamiento posterior, con la entropía general de la cadena de razonamiento variando según el número de llamadas a herramientas. Basándonos en estas observaciones, proponemos Tool-Light, un marco diseñado para fomentar que los LLMs realicen TIR de manera eficiente y precisa. Nuestro marco incluye la construcción de conjuntos de datos y un ajuste fino en múltiples etapas. Para la construcción de conjuntos de datos, empleamos un muestreo continuo autoevolutivo utilizando el modelo ajustado, integrando tanto el muestreo estándar como el muestreo guiado por entropía. Además, establecemos criterios estrictos para la selección de pares positivo-negativos durante el muestreo. El proceso de entrenamiento implica un enfoque de dos etapas, que comprende el Ajuste Fino Supervisado (SFT) y la Optimización Directa de Preferencias Autoevolutiva (DPO). Los resultados experimentales en 10 conjuntos de datos demuestran la efectividad de Tool-Light, mejorando significativamente la eficiencia del modelo en la ejecución de tareas de TIR.

English

Tool-Integrated Reasoning (TIR) enables large language models (LLMs) to improve their internal reasoning ability by integrating external tools. However, models employing TIR often display suboptimal behaviors, such as insufficient or excessive tool usage and overthinking after tool calls. The challenge of incentivizing LLMs to perform TIR efficiently and accurately, while stabilizing the reasoning process, remains an open question. In this paper, we start by exploring the impact of tool calls on model reasoning from the perspective of information entropy. Our findings indicate that tool call results lead to a distinct change in the information entropy of subsequent reasoning, with the overall entropy of the reasoning chain varying based on the number of tool calls. Building on these insights, we propose Tool-Light, a framework designed to encourage LLMs to perform TIR efficiently and accurately. Our framework includes dataset construction and multi-stage fine-tuning. For dataset construction, we employ continuous self-evolved sampling using the fine-tuned model, integrating both vanilla sampling and entropy-guided sampling. Besides, we establish strict criteria for selecting positive-negative pairs during sampling. The training process involves a two-stage approach, comprising Supervised Fine-Tuning (SFT) and Self-Evolved Direct Preference Optimization (DPO). Experimental results on 10 datasets demonstrate the effectiveness of Tool-Light, significantly improving the model's efficiency in executing TIR tasks.

Hacia un Razonamiento Efectivo Integrado con Herramientas mediante el Aprendizaje de Preferencias Auto-Evolucionado

Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning

Resumen

Support