Zu effektivem werkzeugintegriertem Schließen durch selbstentwickeltes Präferenzlernen
Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning
September 27, 2025
papers.authors: Yifei Chen, Guanting Dong, Zhicheng Dou
cs.AI
papers.abstract
Tool-Integrated Reasoning (TIR) ermöglicht es großen Sprachmodellen (LLMs), ihre interne Argumentationsfähigkeit durch die Integration externer Werkzeuge zu verbessern. Modelle, die TIR einsetzen, zeigen jedoch häufig suboptimale Verhaltensweisen, wie unzureichende oder übermäßige Nutzung von Werkzeugen sowie übermäßiges Nachdenken nach Werkzeugaufrufen. Die Herausforderung, LLMs dazu zu motivieren, TIR effizient und präzise auszuführen und gleichzeitig den Argumentationsprozess zu stabilisieren, bleibt eine offene Frage. In diesem Artikel untersuchen wir zunächst den Einfluss von Werkzeugaufrufen auf die Modellargumentation aus der Perspektive der Informationsentropie. Unsere Ergebnisse zeigen, dass die Ergebnisse von Werkzeugaufrufen zu einer deutlichen Veränderung der Informationsentropie der nachfolgenden Argumentation führen, wobei die Gesamtentropie der Argumentationskette in Abhängigkeit von der Anzahl der Werkzeugaufrufe variiert. Aufbauend auf diesen Erkenntnissen schlagen wir Tool-Light vor, ein Framework, das darauf abzielt, LLMs dazu zu ermutigen, TIR effizient und präzise auszuführen. Unser Framework umfasst die Konstruktion von Datensätzen und mehrstufiges Feintuning. Für die Datensatzkonstruktion verwenden wir kontinuierliches, selbstentwickeltes Sampling mit dem feinabgestimmten Modell, wobei sowohl einfaches Sampling als auch entropiegesteuertes Sampling integriert werden. Darüber hinaus legen wir strenge Kriterien für die Auswahl von Positiv-Negativ-Paaren während des Samplings fest. Der Trainingsprozess umfasst einen zweistufigen Ansatz, bestehend aus Supervised Fine-Tuning (SFT) und Self-Evolved Direct Preference Optimization (DPO). Experimentelle Ergebnisse auf 10 Datensätzen demonstrieren die Wirksamkeit von Tool-Light, wodurch die Effizienz des Modells bei der Ausführung von TIR-Aufgaben erheblich verbessert wird.
English
Tool-Integrated Reasoning (TIR) enables large language models (LLMs) to
improve their internal reasoning ability by integrating external tools.
However, models employing TIR often display suboptimal behaviors, such as
insufficient or excessive tool usage and overthinking after tool calls. The
challenge of incentivizing LLMs to perform TIR efficiently and accurately,
while stabilizing the reasoning process, remains an open question. In this
paper, we start by exploring the impact of tool calls on model reasoning from
the perspective of information entropy. Our findings indicate that tool call
results lead to a distinct change in the information entropy of subsequent
reasoning, with the overall entropy of the reasoning chain varying based on the
number of tool calls. Building on these insights, we propose Tool-Light, a
framework designed to encourage LLMs to perform TIR efficiently and accurately.
Our framework includes dataset construction and multi-stage fine-tuning. For
dataset construction, we employ continuous self-evolved sampling using the
fine-tuned model, integrating both vanilla sampling and entropy-guided
sampling. Besides, we establish strict criteria for selecting positive-negative
pairs during sampling. The training process involves a two-stage approach,
comprising Supervised Fine-Tuning (SFT) and Self-Evolved Direct Preference
Optimization (DPO). Experimental results on 10 datasets demonstrate the
effectiveness of Tool-Light, significantly improving the model's efficiency in
executing TIR tasks.