ChatPaper.aiChatPaper

Naar effectief gereedschapsgeïntegreerd redeneren via zelfontwikkelde voorkeursleren

Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning

September 27, 2025
Auteurs: Yifei Chen, Guanting Dong, Zhicheng Dou
cs.AI

Samenvatting

Tool-Integrated Reasoning (TIR) stelt grote taalmodellen (LLMs) in staat om hun interne redeneervermogen te verbeteren door externe tools te integreren. Modellen die TIR toepassen, vertonen echter vaak suboptimale gedragingen, zoals onvoldoende of excessief toolgebruik en overdenken na toolaanroepen. De uitdaging om LLMs aan te moedigen TIR efficiënt en accuraat uit te voeren, terwijl het redeneerproces wordt gestabiliseerd, blijft een open vraag. In dit artikel beginnen we met het onderzoeken van de impact van toolaanroepen op modelredenering vanuit het perspectief van informatie-entropie. Onze bevindingen geven aan dat de resultaten van toolaanroepen leiden tot een duidelijke verandering in de informatie-entropie van de daaropvolgende redenering, waarbij de totale entropie van de redeneerketen varieert op basis van het aantal toolaanroepen. Op basis van deze inzichten stellen we Tool-Light voor, een framework ontworpen om LLMs aan te moedigen TIR efficiënt en accuraat uit te voeren. Ons framework omvat datasetconstructie en meerfasige fine-tuning. Voor datasetconstructie gebruiken we continue zelfontwikkelde steekproeven met het gefinetunede model, waarbij zowel standaardsteekproeven als entropie-gestuurde steekproeven worden geïntegreerd. Daarnaast stellen we strikte criteria vast voor het selecteren van positief-negatieve paren tijdens de steekproefname. Het trainingsproces omvat een tweefasenbenadering, bestaande uit Supervised Fine-Tuning (SFT) en Self-Evolved Direct Preference Optimization (DPO). Experimentele resultaten op 10 datasets tonen de effectiviteit van Tool-Light aan, waarbij de efficiëntie van het model bij het uitvoeren van TIR-taken aanzienlijk wordt verbeterd.
English
Tool-Integrated Reasoning (TIR) enables large language models (LLMs) to improve their internal reasoning ability by integrating external tools. However, models employing TIR often display suboptimal behaviors, such as insufficient or excessive tool usage and overthinking after tool calls. The challenge of incentivizing LLMs to perform TIR efficiently and accurately, while stabilizing the reasoning process, remains an open question. In this paper, we start by exploring the impact of tool calls on model reasoning from the perspective of information entropy. Our findings indicate that tool call results lead to a distinct change in the information entropy of subsequent reasoning, with the overall entropy of the reasoning chain varying based on the number of tool calls. Building on these insights, we propose Tool-Light, a framework designed to encourage LLMs to perform TIR efficiently and accurately. Our framework includes dataset construction and multi-stage fine-tuning. For dataset construction, we employ continuous self-evolved sampling using the fine-tuned model, integrating both vanilla sampling and entropy-guided sampling. Besides, we establish strict criteria for selecting positive-negative pairs during sampling. The training process involves a two-stage approach, comprising Supervised Fine-Tuning (SFT) and Self-Evolved Direct Preference Optimization (DPO). Experimental results on 10 datasets demonstrate the effectiveness of Tool-Light, significantly improving the model's efficiency in executing TIR tasks.
PDF132September 30, 2025