LIMOPro: Refinamento de Raciocínio para Escalabilidade Eficiente e Eficaz em Tempo de Teste
LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling
May 25, 2025
Autores: Yang Xiao, Jiashuo Wang, Ruifeng Yuan, Chunpu Xu, Kaishuai Xu, Wenjie Li, Pengfei Liu
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) têm demonstrado capacidades notáveis de raciocínio por meio de abordagens de escalonamento em tempo de teste, especialmente quando ajustados com dados de cadeia de pensamento (CoT) destilados de modelos de raciocínio de grande escala (LRMs) mais poderosos. No entanto, essas cadeias de raciocínio frequentemente contêm elementos verbosos que espelham a resolução de problemas humana, categorizados como raciocínio progressivo (o caminho essencial de desenvolvimento da solução) e elementos funcionais (processos de verificação, abordagens alternativas de solução e correções de erros). Embora o raciocínio progressivo seja crucial, os elementos funcionais aumentam significativamente as demandas computacionais durante a inferência em tempo de teste. Introduzimos o PIR (Refinamento de Importância Baseado em Perplexidade), um framework fundamentado que avalia quantitativamente a importância de cada etapa de raciocínio com base em seu impacto na confiança da previsão da resposta. O PIR identifica sistematicamente e poda seletivamente apenas as etapas funcionais de baixa importância, preservando os componentes de raciocínio progressivo, criando dados de treinamento otimizados que mantêm a integridade do caminho central da solução enquanto reduzem a verbosidade. Modelos ajustados com dados otimizados pelo PIR exibem propriedades superiores de escalonamento em tempo de teste, gerando cadeias de raciocínio mais concisas enquanto alcançam precisão melhorada (+0,9\% a +6,6\%) com uso significativamente reduzido de tokens (-3\% a -41\%) em benchmarks desafiadores de raciocínio (AIME, AMC e GPQA Diamond). Nossa abordagem demonstra forte generalizabilidade em diferentes tamanhos de modelos, fontes de dados e orçamentos de tokens, oferecendo uma solução prática para a implantação de LLMs com capacidade de raciocínio em cenários onde escalonamento eficiente em tempo de teste, tempo de resposta e eficiência computacional são restrições valiosas.
English
Large language models (LLMs) have demonstrated remarkable reasoning
capabilities through test-time scaling approaches, particularly when fine-tuned
with chain-of-thought (CoT) data distilled from more powerful large reasoning
models (LRMs). However, these reasoning chains often contain verbose elements
that mirror human problem-solving, categorized as progressive reasoning (the
essential solution development path) and functional elements (verification
processes, alternative solution approaches, and error corrections). While
progressive reasoning is crucial, the functional elements significantly
increase computational demands during test-time inference. We introduce PIR
(Perplexity-based Importance Refinement), a principled framework that
quantitatively evaluates the importance of each reasoning step based on its
impact on answer prediction confidence. PIR systematically identifies and
selectively prunes only low-importance functional steps while preserving
progressive reasoning components, creating optimized training data that
maintains the integrity of the core solution path while reducing verbosity.
Models fine-tuned on PIR-optimized data exhibit superior test-time scaling
properties, generating more concise reasoning chains while achieving improved
accuracy (+0.9\% to +6.6\%) with significantly reduced token usage (-3\% to
-41\%) across challenging reasoning benchmarks (AIME, AMC, and GPQA Diamond).
Our approach demonstrates strong generalizability across different model sizes,
data sources, and token budgets, offering a practical solution for deploying
reasoning-capable LLMs in scenarios where efficient test-time scaling, response
time, and computational efficiency are valuable constraints.