ChatPaper.aiChatPaper

LIMOPro : Raffinement du raisonnement pour une mise à l'échelle efficace et performante lors des tests

LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling

May 25, 2025
Auteurs: Yang Xiao, Jiashuo Wang, Ruifeng Yuan, Chunpu Xu, Kaishuai Xu, Wenjie Li, Pengfei Liu
cs.AI

Résumé

Les grands modèles de langage (LLMs) ont démontré des capacités de raisonnement remarquables grâce à des approches de mise à l'échelle au moment du test, en particulier lorsqu'ils sont affinés avec des données de chaîne de pensée (CoT) distillées à partir de modèles de raisonnement plus puissants (LRMs). Cependant, ces chaînes de raisonnement contiennent souvent des éléments verbeux qui reflètent la résolution de problèmes humaine, catégorisés comme raisonnement progressif (le chemin essentiel de développement de la solution) et éléments fonctionnels (processus de vérification, approches alternatives de solution et corrections d'erreurs). Bien que le raisonnement progressif soit crucial, les éléments fonctionnels augmentent considérablement les demandes de calcul lors de l'inférence au moment du test. Nous introduisons PIR (Perplexity-based Importance Refinement), un cadre méthodologique qui évalue quantitativement l'importance de chaque étape de raisonnement en fonction de son impact sur la confiance de prédiction de la réponse. PIR identifie systématiquement et élagage sélectivement uniquement les étapes fonctionnelles de faible importance tout en préservant les composants de raisonnement progressif, créant ainsi des données d'entraînement optimisées qui maintiennent l'intégrité du chemin de solution principal tout en réduisant la verbosité. Les modèles affinés sur des données optimisées par PIR présentent des propriétés de mise à l'échelle au moment du test supérieures, générant des chaînes de raisonnement plus concises tout en atteignant une précision améliorée (+0,9\% à +6,6\%) avec une utilisation significativement réduite de tokens (-3\% à -41\%) sur des benchmarks de raisonnement difficiles (AIME, AMC et GPQA Diamond). Notre approche démontre une forte généralisabilité à travers différentes tailles de modèles, sources de données et budgets de tokens, offrant une solution pratique pour déployer des LLMs capables de raisonnement dans des scénarios où une mise à l'échelle efficace au moment du test, un temps de réponse et une efficacité computationnelle sont des contraintes précieuses.
English
Large language models (LLMs) have demonstrated remarkable reasoning capabilities through test-time scaling approaches, particularly when fine-tuned with chain-of-thought (CoT) data distilled from more powerful large reasoning models (LRMs). However, these reasoning chains often contain verbose elements that mirror human problem-solving, categorized as progressive reasoning (the essential solution development path) and functional elements (verification processes, alternative solution approaches, and error corrections). While progressive reasoning is crucial, the functional elements significantly increase computational demands during test-time inference. We introduce PIR (Perplexity-based Importance Refinement), a principled framework that quantitatively evaluates the importance of each reasoning step based on its impact on answer prediction confidence. PIR systematically identifies and selectively prunes only low-importance functional steps while preserving progressive reasoning components, creating optimized training data that maintains the integrity of the core solution path while reducing verbosity. Models fine-tuned on PIR-optimized data exhibit superior test-time scaling properties, generating more concise reasoning chains while achieving improved accuracy (+0.9\% to +6.6\%) with significantly reduced token usage (-3\% to -41\%) across challenging reasoning benchmarks (AIME, AMC, and GPQA Diamond). Our approach demonstrates strong generalizability across different model sizes, data sources, and token budgets, offering a practical solution for deploying reasoning-capable LLMs in scenarios where efficient test-time scaling, response time, and computational efficiency are valuable constraints.

Summary

AI-Generated Summary

PDF122May 29, 2025