ChatPaper.aiChatPaper

Vers un raisonnement efficace intégrant des outils via l'apprentissage de préférences auto-évolutives

Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning

September 27, 2025
papers.authors: Yifei Chen, Guanting Dong, Zhicheng Dou
cs.AI

papers.abstract

Le Raisonnement Intégré aux Outils (TIR) permet aux grands modèles de langage (LLMs) d'améliorer leur capacité de raisonnement interne en intégrant des outils externes. Cependant, les modèles utilisant le TIR présentent souvent des comportements sous-optimaux, tels qu'une utilisation insuffisante ou excessive des outils et une surréflexion après les appels d'outils. Le défi d'inciter les LLMs à effectuer le TIR de manière efficace et précise, tout en stabilisant le processus de raisonnement, reste une question ouverte. Dans cet article, nous commençons par explorer l'impact des appels d'outils sur le raisonnement du modèle du point de vue de l'entropie informationnelle. Nos résultats indiquent que les résultats des appels d'outils entraînent un changement distinct dans l'entropie informationnelle du raisonnement subséquent, avec l'entropie globale de la chaîne de raisonnement variant en fonction du nombre d'appels d'outils. Sur la base de ces observations, nous proposons Tool-Light, un cadre conçu pour encourager les LLMs à effectuer le TIR de manière efficace et précise. Notre cadre comprend la construction de jeux de données et un affinage en plusieurs étapes. Pour la construction des jeux de données, nous utilisons un échantillonnage auto-évolutif continu en utilisant le modèle affiné, intégrant à la fois un échantillonnage classique et un échantillonnage guidé par l'entropie. En outre, nous établissons des critères stricts pour la sélection de paires positives-négatives lors de l'échantillonnage. Le processus de formation implique une approche en deux étapes, comprenant un Affinage Supervisé (SFT) et une Optimisation Directe des Préférences Auto-Évolutive (DPO). Les résultats expérimentaux sur 10 jeux de données démontrent l'efficacité de Tool-Light, améliorant significativement l'efficacité du modèle dans l'exécution des tâches de TIR.
English
Tool-Integrated Reasoning (TIR) enables large language models (LLMs) to improve their internal reasoning ability by integrating external tools. However, models employing TIR often display suboptimal behaviors, such as insufficient or excessive tool usage and overthinking after tool calls. The challenge of incentivizing LLMs to perform TIR efficiently and accurately, while stabilizing the reasoning process, remains an open question. In this paper, we start by exploring the impact of tool calls on model reasoning from the perspective of information entropy. Our findings indicate that tool call results lead to a distinct change in the information entropy of subsequent reasoning, with the overall entropy of the reasoning chain varying based on the number of tool calls. Building on these insights, we propose Tool-Light, a framework designed to encourage LLMs to perform TIR efficiently and accurately. Our framework includes dataset construction and multi-stage fine-tuning. For dataset construction, we employ continuous self-evolved sampling using the fine-tuned model, integrating both vanilla sampling and entropy-guided sampling. Besides, we establish strict criteria for selecting positive-negative pairs during sampling. The training process involves a two-stage approach, comprising Supervised Fine-Tuning (SFT) and Self-Evolved Direct Preference Optimization (DPO). Experimental results on 10 datasets demonstrate the effectiveness of Tool-Light, significantly improving the model's efficiency in executing TIR tasks.
PDF122September 30, 2025