LIMOPro: Verfeinerung des Reasoning für effiziente und effektive Skalierung zur Testzeit
LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling
May 25, 2025
Autoren: Yang Xiao, Jiashuo Wang, Ruifeng Yuan, Chunpu Xu, Kaishuai Xu, Wenjie Li, Pengfei Liu
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten im logischen Denken durch Testzeit-Skalierungsansätze gezeigt, insbesondere wenn sie mit Chain-of-Thought (CoT)-Daten feinabgestimmt werden, die aus leistungsstärkeren großen Denkmodellen (LRMs) destilliert wurden. Diese Denkketten enthalten jedoch oft ausführliche Elemente, die menschliches Problemlösen widerspiegeln, kategorisiert als progressives Denken (der wesentliche Lösungsentwicklungspfad) und funktionale Elemente (Überprüfungsprozesse, alternative Lösungsansätze und Fehlerkorrekturen). Während progressives Denken entscheidend ist, erhöhen die funktionalen Elemente den Rechenaufwand während der Testzeit-Inferenz erheblich. Wir stellen PIR (Perplexity-based Importance Refinement) vor, ein prinzipielles Framework, das die Bedeutung jedes Denkschritts basierend auf seinem Einfluss auf die Vorhersagegenauigkeit der Antwort quantitativ bewertet. PIR identifiziert systematisch und beschneidet selektiv nur funktionale Schritte mit geringer Bedeutung, während die Komponenten des progressiven Denkens erhalten bleiben. Dadurch werden optimierte Trainingsdaten erstellt, die die Integrität des Kernlösungspfads bewahren und gleichzeitig die Ausführlichkeit reduzieren. Modelle, die auf PIR-optimierten Daten feinabgestimmt werden, zeigen überlegene Testzeit-Skalierungseigenschaften, erzeugen prägnantere Denkketten und erreichen eine verbesserte Genauigkeit (+0,9\% bis +6,6\%) bei deutlich reduzierter Token-Nutzung (-3\% bis -41\%) über anspruchsvolle Denkbenchmarks (AIME, AMC und GPQA Diamond) hinweg. Unser Ansatz zeigt eine starke Generalisierbarkeit über verschiedene Modellgrößen, Datenquellen und Token-Budgets hinweg und bietet eine praktische Lösung für den Einsatz von Denkfähigen LLMs in Szenarien, in denen effiziente Testzeit-Skalierung, Antwortzeit und Recheneffizienz wertvolle Einschränkungen darstellen.
English
Large language models (LLMs) have demonstrated remarkable reasoning
capabilities through test-time scaling approaches, particularly when fine-tuned
with chain-of-thought (CoT) data distilled from more powerful large reasoning
models (LRMs). However, these reasoning chains often contain verbose elements
that mirror human problem-solving, categorized as progressive reasoning (the
essential solution development path) and functional elements (verification
processes, alternative solution approaches, and error corrections). While
progressive reasoning is crucial, the functional elements significantly
increase computational demands during test-time inference. We introduce PIR
(Perplexity-based Importance Refinement), a principled framework that
quantitatively evaluates the importance of each reasoning step based on its
impact on answer prediction confidence. PIR systematically identifies and
selectively prunes only low-importance functional steps while preserving
progressive reasoning components, creating optimized training data that
maintains the integrity of the core solution path while reducing verbosity.
Models fine-tuned on PIR-optimized data exhibit superior test-time scaling
properties, generating more concise reasoning chains while achieving improved
accuracy (+0.9\% to +6.6\%) with significantly reduced token usage (-3\% to
-41\%) across challenging reasoning benchmarks (AIME, AMC, and GPQA Diamond).
Our approach demonstrates strong generalizability across different model sizes,
data sources, and token budgets, offering a practical solution for deploying
reasoning-capable LLMs in scenarios where efficient test-time scaling, response
time, and computational efficiency are valuable constraints.Summary
AI-Generated Summary