LIMOPro: Affinamento del Ragionamento per un Ridimensionamento Efficiente ed Efficace in Fase di Test

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità di ragionamento notevoli attraverso approcci di scalabilità al momento del test, in particolare quando vengono perfezionati con dati di catena di pensiero (CoT) distillati da modelli di ragionamento di grandi dimensioni (LRM) più potenti. Tuttavia, queste catene di ragionamento spesso contengono elementi verbosi che rispecchiano la risoluzione dei problemi umana, classificati come ragionamento progressivo (il percorso essenziale di sviluppo della soluzione) ed elementi funzionali (processi di verifica, approcci alternativi alla soluzione e correzioni degli errori). Sebbene il ragionamento progressivo sia cruciale, gli elementi funzionali aumentano significativamente le richieste computazionali durante l'inferenza al momento del test. Introduciamo PIR (Perplexity-based Importance Refinement), un framework principiato che valuta quantitativamente l'importanza di ogni passo di ragionamento in base al suo impatto sulla fiducia nella previsione della risposta. PIR identifica sistematicamente e pota selettivamente solo i passi funzionali di bassa importanza, preservando i componenti del ragionamento progressivo, creando dati di addestramento ottimizzati che mantengono l'integrità del percorso di soluzione principale riducendo la verbosità. I modelli perfezionati sui dati ottimizzati da PIR mostrano proprietà di scalabilità al momento del test superiori, generando catene di ragionamento più concise e ottenendo una precisione migliorata (+0,9\% a +6,6\%) con un utilizzo significativamente ridotto dei token (-3\% a -41\%) su benchmark di ragionamento impegnativi (AIME, AMC e GPQA Diamond). Il nostro approccio dimostra una forte generalizzabilità su diverse dimensioni del modello, fonti di dati e budget di token, offrendo una soluzione pratica per il dispiegamento di LLM capaci di ragionamento in scenari in cui la scalabilità efficiente al momento del test, il tempo di risposta e l'efficienza computazionale sono vincoli preziosi.

English

Large language models (LLMs) have demonstrated remarkable reasoning capabilities through test-time scaling approaches, particularly when fine-tuned with chain-of-thought (CoT) data distilled from more powerful large reasoning models (LRMs). However, these reasoning chains often contain verbose elements that mirror human problem-solving, categorized as progressive reasoning (the essential solution development path) and functional elements (verification processes, alternative solution approaches, and error corrections). While progressive reasoning is crucial, the functional elements significantly increase computational demands during test-time inference. We introduce PIR (Perplexity-based Importance Refinement), a principled framework that quantitatively evaluates the importance of each reasoning step based on its impact on answer prediction confidence. PIR systematically identifies and selectively prunes only low-importance functional steps while preserving progressive reasoning components, creating optimized training data that maintains the integrity of the core solution path while reducing verbosity. Models fine-tuned on PIR-optimized data exhibit superior test-time scaling properties, generating more concise reasoning chains while achieving improved accuracy (+0.9\% to +6.6\%) with significantly reduced token usage (-3\% to -41\%) across challenging reasoning benchmarks (AIME, AMC, and GPQA Diamond). Our approach demonstrates strong generalizability across different model sizes, data sources, and token budgets, offering a practical solution for deploying reasoning-capable LLMs in scenarios where efficient test-time scaling, response time, and computational efficiency are valuable constraints.

LIMOPro: Affinamento del Ragionamento per un Ridimensionamento Efficiente ed Efficace in Fase di Test

LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling

Abstract

Support