LIMOPro: Verfeinerung des Reasoning für effiziente und effektive Skalierung zur Testzeit

papers.abstract

Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten im logischen Denken durch Testzeit-Skalierungsansätze gezeigt, insbesondere wenn sie mit Chain-of-Thought (CoT)-Daten feinabgestimmt werden, die aus leistungsstärkeren großen Denkmodellen (LRMs) destilliert wurden. Diese Denkketten enthalten jedoch oft ausführliche Elemente, die menschliches Problemlösen widerspiegeln, kategorisiert als progressives Denken (der wesentliche Lösungsentwicklungspfad) und funktionale Elemente (Überprüfungsprozesse, alternative Lösungsansätze und Fehlerkorrekturen). Während progressives Denken entscheidend ist, erhöhen die funktionalen Elemente den Rechenaufwand während der Testzeit-Inferenz erheblich. Wir stellen PIR (Perplexity-based Importance Refinement) vor, ein prinzipielles Framework, das die Bedeutung jedes Denkschritts basierend auf seinem Einfluss auf die Vorhersagegenauigkeit der Antwort quantitativ bewertet. PIR identifiziert systematisch und beschneidet selektiv nur funktionale Schritte mit geringer Bedeutung, während die Komponenten des progressiven Denkens erhalten bleiben. Dadurch werden optimierte Trainingsdaten erstellt, die die Integrität des Kernlösungspfads bewahren und gleichzeitig die Ausführlichkeit reduzieren. Modelle, die auf PIR-optimierten Daten feinabgestimmt werden, zeigen überlegene Testzeit-Skalierungseigenschaften, erzeugen prägnantere Denkketten und erreichen eine verbesserte Genauigkeit (+0,9\% bis +6,6\%) bei deutlich reduzierter Token-Nutzung (-3\% bis -41\%) über anspruchsvolle Denkbenchmarks (AIME, AMC und GPQA Diamond) hinweg. Unser Ansatz zeigt eine starke Generalisierbarkeit über verschiedene Modellgrößen, Datenquellen und Token-Budgets hinweg und bietet eine praktische Lösung für den Einsatz von Denkfähigen LLMs in Szenarien, in denen effiziente Testzeit-Skalierung, Antwortzeit und Recheneffizienz wertvolle Einschränkungen darstellen.

English

Large language models (LLMs) have demonstrated remarkable reasoning capabilities through test-time scaling approaches, particularly when fine-tuned with chain-of-thought (CoT) data distilled from more powerful large reasoning models (LRMs). However, these reasoning chains often contain verbose elements that mirror human problem-solving, categorized as progressive reasoning (the essential solution development path) and functional elements (verification processes, alternative solution approaches, and error corrections). While progressive reasoning is crucial, the functional elements significantly increase computational demands during test-time inference. We introduce PIR (Perplexity-based Importance Refinement), a principled framework that quantitatively evaluates the importance of each reasoning step based on its impact on answer prediction confidence. PIR systematically identifies and selectively prunes only low-importance functional steps while preserving progressive reasoning components, creating optimized training data that maintains the integrity of the core solution path while reducing verbosity. Models fine-tuned on PIR-optimized data exhibit superior test-time scaling properties, generating more concise reasoning chains while achieving improved accuracy (+0.9\% to +6.6\%) with significantly reduced token usage (-3\% to -41\%) across challenging reasoning benchmarks (AIME, AMC, and GPQA Diamond). Our approach demonstrates strong generalizability across different model sizes, data sources, and token budgets, offering a practical solution for deploying reasoning-capable LLMs in scenarios where efficient test-time scaling, response time, and computational efficiency are valuable constraints.

LIMOPro: Verfeinerung des Reasoning für effiziente und effektive Skalierung zur Testzeit

LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling

papers.abstract

Support