ChatPaper.aiChatPaper

Verso un Ragionamento Efficace con Strumenti Integrati tramite Apprendimento di Preferenze Auto-Evoluto

Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning

September 27, 2025
Autori: Yifei Chen, Guanting Dong, Zhicheng Dou
cs.AI

Abstract

Il Ragionamento Integrato con Strumenti (Tool-Integrated Reasoning, TIR) consente ai grandi modelli linguistici (LLM) di migliorare la loro capacità di ragionamento interno integrando strumenti esterni. Tuttavia, i modelli che utilizzano il TIR spesso mostrano comportamenti subottimali, come un uso insufficiente o eccessivo degli strumenti e un eccessivo ragionamento dopo le chiamate agli strumenti. La sfida di incentivare i LLM a eseguire il TIR in modo efficiente e accurato, stabilizzando il processo di ragionamento, rimane una questione aperta. In questo articolo, iniziamo esplorando l'impatto delle chiamate agli strumenti sul ragionamento del modello dal punto di vista dell'entropia informativa. I nostri risultati indicano che i risultati delle chiamate agli strumenti portano a un cambiamento distinto nell'entropia informativa del ragionamento successivo, con l'entropia complessiva della catena di ragionamento che varia in base al numero di chiamate agli strumenti. Basandoci su queste intuizioni, proponiamo Tool-Light, un framework progettato per incoraggiare i LLM a eseguire il TIR in modo efficiente e accurato. Il nostro framework include la costruzione del dataset e la messa a punto in più fasi. Per la costruzione del dataset, utilizziamo un campionamento continuo auto-evoluto utilizzando il modello messo a punto, integrando sia il campionamento standard che il campionamento guidato dall'entropia. Inoltre, stabiliamo criteri rigorosi per la selezione di coppie positivo-negative durante il campionamento. Il processo di formazione prevede un approccio in due fasi, comprendendo la Messa a Punto Supervisionata (Supervised Fine-Tuning, SFT) e l'Ottimizzazione delle Preferenze Dirette Auto-Evoluta (Self-Evolved Direct Preference Optimization, DPO). I risultati sperimentali su 10 dataset dimostrano l'efficacia di Tool-Light, migliorando significativamente l'efficienza del modello nell'esecuzione di compiti TIR.
English
Tool-Integrated Reasoning (TIR) enables large language models (LLMs) to improve their internal reasoning ability by integrating external tools. However, models employing TIR often display suboptimal behaviors, such as insufficient or excessive tool usage and overthinking after tool calls. The challenge of incentivizing LLMs to perform TIR efficiently and accurately, while stabilizing the reasoning process, remains an open question. In this paper, we start by exploring the impact of tool calls on model reasoning from the perspective of information entropy. Our findings indicate that tool call results lead to a distinct change in the information entropy of subsequent reasoning, with the overall entropy of the reasoning chain varying based on the number of tool calls. Building on these insights, we propose Tool-Light, a framework designed to encourage LLMs to perform TIR efficiently and accurately. Our framework includes dataset construction and multi-stage fine-tuning. For dataset construction, we employ continuous self-evolved sampling using the fine-tuned model, integrating both vanilla sampling and entropy-guided sampling. Besides, we establish strict criteria for selecting positive-negative pairs during sampling. The training process involves a two-stage approach, comprising Supervised Fine-Tuning (SFT) and Self-Evolved Direct Preference Optimization (DPO). Experimental results on 10 datasets demonstrate the effectiveness of Tool-Light, significantly improving the model's efficiency in executing TIR tasks.
PDF132September 30, 2025