Rumo ao Raciocínio Eficaz com Integração de Ferramentas via Aprendizado de Preferências Auto-Evoluído
Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning
September 27, 2025
Autores: Yifei Chen, Guanting Dong, Zhicheng Dou
cs.AI
Resumo
O Raciocínio Integrado a Ferramentas (TIR) permite que grandes modelos de linguagem (LLMs) melhorem sua capacidade de raciocínio interno ao integrar ferramentas externas. No entanto, modelos que empregam TIR frequentemente exibem comportamentos subótimos, como uso insuficiente ou excessivo de ferramentas e excesso de reflexão após chamadas de ferramentas. O desafio de incentivar LLMs a realizar TIR de forma eficiente e precisa, enquanto estabiliza o processo de raciocínio, permanece uma questão em aberto. Neste artigo, começamos explorando o impacto das chamadas de ferramentas no raciocínio do modelo a partir da perspectiva da entropia da informação. Nossos achados indicam que os resultados das chamadas de ferramentas levam a uma mudança distinta na entropia da informação do raciocínio subsequente, com a entropia geral da cadeia de raciocínio variando com base no número de chamadas de ferramentas. Com base nessas descobertas, propomos o Tool-Light, um framework projetado para encorajar LLMs a realizar TIR de forma eficiente e precisa. Nosso framework inclui a construção de conjuntos de dados e ajuste fino em múltiplas etapas. Para a construção do conjunto de dados, empregamos amostragem contínua autoevolutiva usando o modelo ajustado, integrando tanto amostragem simples quanto amostragem guiada por entropia. Além disso, estabelecemos critérios rigorosos para a seleção de pares positivo-negativos durante a amostragem. O processo de treinamento envolve uma abordagem em duas etapas, compreendendo Ajuste Fino Supervisionado (SFT) e Otimização de Preferência Direta Autoevolutiva (DPO). Resultados experimentais em 10 conjuntos de dados demonstram a eficácia do Tool-Light, melhorando significativamente a eficiência do modelo na execução de tarefas TIR.
English
Tool-Integrated Reasoning (TIR) enables large language models (LLMs) to
improve their internal reasoning ability by integrating external tools.
However, models employing TIR often display suboptimal behaviors, such as
insufficient or excessive tool usage and overthinking after tool calls. The
challenge of incentivizing LLMs to perform TIR efficiently and accurately,
while stabilizing the reasoning process, remains an open question. In this
paper, we start by exploring the impact of tool calls on model reasoning from
the perspective of information entropy. Our findings indicate that tool call
results lead to a distinct change in the information entropy of subsequent
reasoning, with the overall entropy of the reasoning chain varying based on the
number of tool calls. Building on these insights, we propose Tool-Light, a
framework designed to encourage LLMs to perform TIR efficiently and accurately.
Our framework includes dataset construction and multi-stage fine-tuning. For
dataset construction, we employ continuous self-evolved sampling using the
fine-tuned model, integrating both vanilla sampling and entropy-guided
sampling. Besides, we establish strict criteria for selecting positive-negative
pairs during sampling. The training process involves a two-stage approach,
comprising Supervised Fine-Tuning (SFT) and Self-Evolved Direct Preference
Optimization (DPO). Experimental results on 10 datasets demonstrate the
effectiveness of Tool-Light, significantly improving the model's efficiency in
executing TIR tasks.