LIMOPro: Redeneringsverfijning voor efficiënte en effectieve schaling tijdens testtijd
LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling
May 25, 2025
Auteurs: Yang Xiao, Jiashuo Wang, Ruifeng Yuan, Chunpu Xu, Kaishuai Xu, Wenjie Li, Pengfei Liu
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben opmerkelijke redeneervaardigheden getoond door schaalbenaderingen tijdens testtijd, met name wanneer ze zijn afgestemd met keten-van-gedachte (CoT)-gegevens die zijn gedistilleerd uit krachtigere grote redeneermodellen (LRM's). Deze redeneerketens bevatten echter vaak uitgebreide elementen die menselijke probleemoplossing weerspiegelen, gecategoriseerd als progressief redeneren (het essentiële ontwikkelingspad van de oplossing) en functionele elementen (verificatieprocessen, alternatieve oplossingsbenaderingen en foutcorrecties). Hoewel progressief redeneren cruciaal is, verhogen de functionele elementen de rekenkundige eisen aanzienlijk tijdens testtijd-inferentie. Wij introduceren PIR (Perplexity-based Importance Refinement), een principieel raamwerk dat het belang van elke redeneerstap kwantitatief evalueert op basis van de impact op het vertrouwen in de antwoordvoorspelling. PIR identificeert systematisch en snoeit selectief alleen functionele stappen met een laag belang, terwijl progressieve redeneercomponenten behouden blijven, waardoor geoptimaliseerde trainingsgegevens worden gecreëerd die de integriteit van het kernoplossingspad behouden terwijl de uitgebreidheid wordt verminderd. Modellen die zijn afgestemd op PIR-geoptimaliseerde gegevens vertonen superieure schaaleigenschappen tijdens testtijd, waarbij ze meer beknopte redeneerketens genereren en tegelijkertijd een verbeterde nauwkeurigheid (+0,9\% tot +6,6\%) bereiken met aanzienlijk verminderd tokengebruik (-3\% tot -41\%) over uitdagende redeneerbenchmarks (AIME, AMC en GPQA Diamond). Onze benadering toont sterke generaliseerbaarheid over verschillende modelgroottes, gegevensbronnen en tokenbudgetten, en biedt een praktische oplossing voor het inzetten van redeneerbare LLM's in scenario's waar efficiënte schaalbaarheid tijdens testtijd, reactietijd en rekenkundige efficiëntie waardevolle beperkingen zijn.
English
Large language models (LLMs) have demonstrated remarkable reasoning
capabilities through test-time scaling approaches, particularly when fine-tuned
with chain-of-thought (CoT) data distilled from more powerful large reasoning
models (LRMs). However, these reasoning chains often contain verbose elements
that mirror human problem-solving, categorized as progressive reasoning (the
essential solution development path) and functional elements (verification
processes, alternative solution approaches, and error corrections). While
progressive reasoning is crucial, the functional elements significantly
increase computational demands during test-time inference. We introduce PIR
(Perplexity-based Importance Refinement), a principled framework that
quantitatively evaluates the importance of each reasoning step based on its
impact on answer prediction confidence. PIR systematically identifies and
selectively prunes only low-importance functional steps while preserving
progressive reasoning components, creating optimized training data that
maintains the integrity of the core solution path while reducing verbosity.
Models fine-tuned on PIR-optimized data exhibit superior test-time scaling
properties, generating more concise reasoning chains while achieving improved
accuracy (+0.9\% to +6.6\%) with significantly reduced token usage (-3\% to
-41\%) across challenging reasoning benchmarks (AIME, AMC, and GPQA Diamond).
Our approach demonstrates strong generalizability across different model sizes,
data sources, and token budgets, offering a practical solution for deploying
reasoning-capable LLMs in scenarios where efficient test-time scaling, response
time, and computational efficiency are valuable constraints.