LIMOPro: Affinamento del Ragionamento per un Ridimensionamento Efficiente ed Efficace in Fase di Test
LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling
May 25, 2025
Autori: Yang Xiao, Jiashuo Wang, Ruifeng Yuan, Chunpu Xu, Kaishuai Xu, Wenjie Li, Pengfei Liu
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità di ragionamento notevoli attraverso approcci di scalabilità al momento del test, in particolare quando vengono perfezionati con dati di catena di pensiero (CoT) distillati da modelli di ragionamento di grandi dimensioni (LRM) più potenti. Tuttavia, queste catene di ragionamento spesso contengono elementi verbosi che rispecchiano la risoluzione dei problemi umana, classificati come ragionamento progressivo (il percorso essenziale di sviluppo della soluzione) ed elementi funzionali (processi di verifica, approcci alternativi alla soluzione e correzioni degli errori). Sebbene il ragionamento progressivo sia cruciale, gli elementi funzionali aumentano significativamente le richieste computazionali durante l'inferenza al momento del test. Introduciamo PIR (Perplexity-based Importance Refinement), un framework principiato che valuta quantitativamente l'importanza di ogni passo di ragionamento in base al suo impatto sulla fiducia nella previsione della risposta. PIR identifica sistematicamente e pota selettivamente solo i passi funzionali di bassa importanza, preservando i componenti del ragionamento progressivo, creando dati di addestramento ottimizzati che mantengono l'integrità del percorso di soluzione principale riducendo la verbosità. I modelli perfezionati sui dati ottimizzati da PIR mostrano proprietà di scalabilità al momento del test superiori, generando catene di ragionamento più concise e ottenendo una precisione migliorata (+0,9\% a +6,6\%) con un utilizzo significativamente ridotto dei token (-3\% a -41\%) su benchmark di ragionamento impegnativi (AIME, AMC e GPQA Diamond). Il nostro approccio dimostra una forte generalizzabilità su diverse dimensioni del modello, fonti di dati e budget di token, offrendo una soluzione pratica per il dispiegamento di LLM capaci di ragionamento in scenari in cui la scalabilità efficiente al momento del test, il tempo di risposta e l'efficienza computazionale sono vincoli preziosi.
English
Large language models (LLMs) have demonstrated remarkable reasoning
capabilities through test-time scaling approaches, particularly when fine-tuned
with chain-of-thought (CoT) data distilled from more powerful large reasoning
models (LRMs). However, these reasoning chains often contain verbose elements
that mirror human problem-solving, categorized as progressive reasoning (the
essential solution development path) and functional elements (verification
processes, alternative solution approaches, and error corrections). While
progressive reasoning is crucial, the functional elements significantly
increase computational demands during test-time inference. We introduce PIR
(Perplexity-based Importance Refinement), a principled framework that
quantitatively evaluates the importance of each reasoning step based on its
impact on answer prediction confidence. PIR systematically identifies and
selectively prunes only low-importance functional steps while preserving
progressive reasoning components, creating optimized training data that
maintains the integrity of the core solution path while reducing verbosity.
Models fine-tuned on PIR-optimized data exhibit superior test-time scaling
properties, generating more concise reasoning chains while achieving improved
accuracy (+0.9\% to +6.6\%) with significantly reduced token usage (-3\% to
-41\%) across challenging reasoning benchmarks (AIME, AMC, and GPQA Diamond).
Our approach demonstrates strong generalizability across different model sizes,
data sources, and token budgets, offering a practical solution for deploying
reasoning-capable LLMs in scenarios where efficient test-time scaling, response
time, and computational efficiency are valuable constraints.