К эффективному инструментально-интегрированному рассуждению через саморазвивающееся обучение предпочтениям
Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning
September 27, 2025
Авторы: Yifei Chen, Guanting Dong, Zhicheng Dou
cs.AI
Аннотация
Интеграция инструментов в рассуждения (Tool-Integrated Reasoning, TIR) позволяет крупным языковым моделям (LLM) улучшать свои внутренние способности к рассуждению за счет использования внешних инструментов. Однако модели, применяющие TIR, часто демонстрируют неоптимальное поведение, такое как недостаточное или чрезмерное использование инструментов, а также излишнее обдумывание после вызовов инструментов. Задача стимулирования LLM к эффективному и точному выполнению TIR при стабилизации процесса рассуждения остается открытой. В данной работе мы начинаем с исследования влияния вызовов инструментов на рассуждения модели с точки зрения информационной энтропии. Наши результаты показывают, что результаты вызовов инструментов приводят к заметному изменению информационной энтропии последующих рассуждений, причем общая энтропия цепочки рассуждений варьируется в зависимости от количества вызовов инструментов. На основе этих наблюдений мы предлагаем Tool-Light — фреймворк, предназначенный для поощрения LLM к эффективному и точному выполнению TIR. Наш фреймворк включает создание набора данных и многоэтапную тонкую настройку. Для создания набора данных мы используем непрерывный саморазвивающийся сэмплинг с помощью тонко настроенной модели, интегрируя как стандартное сэмплирование, так и сэмплирование, управляемое энтропией. Кроме того, мы устанавливаем строгие критерии для выбора пар положительных и отрицательных примеров во время сэмплирования. Процесс обучения включает двухэтапный подход, состоящий из контролируемой тонкой настройки (Supervised Fine-Tuning, SFT) и саморазвивающейся оптимизации прямых предпочтений (Self-Evolved Direct Preference Optimization, DPO). Экспериментальные результаты на 10 наборах данных демонстрируют эффективность Tool-Light, значительно повышая эффективность модели в выполнении задач TIR.
English
Tool-Integrated Reasoning (TIR) enables large language models (LLMs) to
improve their internal reasoning ability by integrating external tools.
However, models employing TIR often display suboptimal behaviors, such as
insufficient or excessive tool usage and overthinking after tool calls. The
challenge of incentivizing LLMs to perform TIR efficiently and accurately,
while stabilizing the reasoning process, remains an open question. In this
paper, we start by exploring the impact of tool calls on model reasoning from
the perspective of information entropy. Our findings indicate that tool call
results lead to a distinct change in the information entropy of subsequent
reasoning, with the overall entropy of the reasoning chain varying based on the
number of tool calls. Building on these insights, we propose Tool-Light, a
framework designed to encourage LLMs to perform TIR efficiently and accurately.
Our framework includes dataset construction and multi-stage fine-tuning. For
dataset construction, we employ continuous self-evolved sampling using the
fine-tuned model, integrating both vanilla sampling and entropy-guided
sampling. Besides, we establish strict criteria for selecting positive-negative
pairs during sampling. The training process involves a two-stage approach,
comprising Supervised Fine-Tuning (SFT) and Self-Evolved Direct Preference
Optimization (DPO). Experimental results on 10 datasets demonstrate the
effectiveness of Tool-Light, significantly improving the model's efficiency in
executing TIR tasks.