LIMOPro: Refinamiento del razonamiento para una escalabilidad eficiente y efectiva en tiempo de prueba

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades de razonamiento notables mediante enfoques de escalado en tiempo de prueba, especialmente cuando se ajustan con datos de cadena de pensamiento (CoT, por sus siglas en inglés) destilados de modelos de razonamiento de gran escala (LRMs, por sus siglas en inglés) más potentes. Sin embargo, estas cadenas de razonamiento suelen contener elementos verbosos que reflejan la resolución de problemas humana, categorizados como razonamiento progresivo (la ruta esencial de desarrollo de la solución) y elementos funcionales (procesos de verificación, enfoques alternativos de solución y correcciones de errores). Si bien el razonamiento progresivo es crucial, los elementos funcionales aumentan significativamente las demandas computacionales durante la inferencia en tiempo de prueba. Introducimos PIR (Perplexity-based Importance Refinement), un marco de trabajo fundamentado que evalúa cuantitativamente la importancia de cada paso de razonamiento en función de su impacto en la confianza de la predicción de la respuesta. PIR identifica sistemáticamente y poda selectivamente solo los pasos funcionales de baja importancia, preservando los componentes de razonamiento progresivo, creando datos de entrenamiento optimizados que mantienen la integridad de la ruta central de la solución mientras reducen la verbosidad. Los modelos ajustados con datos optimizados por PIR exhiben propiedades de escalado en tiempo de prueba superiores, generando cadenas de razonamiento más concisas mientras logran una precisión mejorada (+0.9\% a +6.6\%) con un uso de tokens significativamente reducido (-3\% a -41\%) en benchmarks de razonamiento desafiantes (AIME, AMC y GPQA Diamond). Nuestro enfoque demuestra una fuerte generalización en diferentes tamaños de modelos, fuentes de datos y presupuestos de tokens, ofreciendo una solución práctica para implementar LLMs con capacidades de razonamiento en escenarios donde el escalado eficiente en tiempo de prueba, el tiempo de respuesta y la eficiencia computacional son restricciones valiosas.

English

Large language models (LLMs) have demonstrated remarkable reasoning capabilities through test-time scaling approaches, particularly when fine-tuned with chain-of-thought (CoT) data distilled from more powerful large reasoning models (LRMs). However, these reasoning chains often contain verbose elements that mirror human problem-solving, categorized as progressive reasoning (the essential solution development path) and functional elements (verification processes, alternative solution approaches, and error corrections). While progressive reasoning is crucial, the functional elements significantly increase computational demands during test-time inference. We introduce PIR (Perplexity-based Importance Refinement), a principled framework that quantitatively evaluates the importance of each reasoning step based on its impact on answer prediction confidence. PIR systematically identifies and selectively prunes only low-importance functional steps while preserving progressive reasoning components, creating optimized training data that maintains the integrity of the core solution path while reducing verbosity. Models fine-tuned on PIR-optimized data exhibit superior test-time scaling properties, generating more concise reasoning chains while achieving improved accuracy (+0.9\% to +6.6\%) with significantly reduced token usage (-3\% to -41\%) across challenging reasoning benchmarks (AIME, AMC, and GPQA Diamond). Our approach demonstrates strong generalizability across different model sizes, data sources, and token budgets, offering a practical solution for deploying reasoning-capable LLMs in scenarios where efficient test-time scaling, response time, and computational efficiency are valuable constraints.

LIMOPro: Refinamiento del razonamiento para una escalabilidad eficiente y efectiva en tiempo de prueba

LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling

Resumen

Support