Piensa dos veces: Mejorando el razonamiento de los LLM mediante la escalabilidad del pensamiento en múltiples rondas durante la prueba
Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking
March 25, 2025
Autores: Xiaoyu Tian, Sitong Zhao, Haotian Wang, Shuaiting Chen, Yunjie Ji, Yiping Peng, Han Zhao, Xiangang Li
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje de gran escala (LLMs), como OpenAI-o1 y DeepSeek-R1, han demostrado la eficacia del escalado en tiempo de prueba, donde los procesos de razonamiento extendido mejoran sustancialmente el rendimiento del modelo. A pesar de esto, los modelos actuales están limitados por dificultades en el manejo de textos largos y la eficiencia del entrenamiento con aprendizaje por refuerzo (RL). Para abordar estos problemas, proponemos un enfoque simple pero efectivo de escalado en tiempo de prueba llamado Pensamiento Multironda. Este método refina iterativamente el razonamiento del modelo aprovechando las respuestas anteriores como indicaciones para rondas posteriores. Experimentos extensos en múltiples modelos, incluyendo QwQ-32B y DeepSeek-R1, muestran consistentemente mejoras en el rendimiento en varios benchmarks como AIME 2024, MATH-500, GPQA-diamond y LiveCodeBench. Por ejemplo, la precisión de QwQ-32B mejoró del 80.3% (Ronda 1) al 82.1% (Ronda 2) en el conjunto de datos AIME 2024, mientras que DeepSeek-R1 mostró un aumento similar del 79.7% al 82.0%. Estos resultados confirman que el Pensamiento Multironda es un enfoque ampliamente aplicable y sencillo para lograr mejoras estables en el rendimiento del modelo, destacando su potencial para futuros desarrollos en técnicas de escalado en tiempo de prueba. La indicación clave: {Indicación original de la pregunta} La respuesta anterior del asistente es: <respuesta> {respuesta de la última ronda} </respuesta>, y por favor responda de nuevo.
English
Recent advances in large language models (LLMs), such as OpenAI-o1 and
DeepSeek-R1, have demonstrated the effectiveness of test-time scaling, where
extended reasoning processes substantially enhance model performance. Despite
this, current models are constrained by limitations in handling long texts and
reinforcement learning (RL) training efficiency. To address these issues, we
propose a simple yet effective test-time scaling approach Multi-round Thinking.
This method iteratively refines model reasoning by leveraging previous answers
as prompts for subsequent rounds. Extensive experiments across multiple models,
including QwQ-32B and DeepSeek-R1, consistently show performance improvements
on various benchmarks such as AIME 2024, MATH-500, GPQA-diamond, and
LiveCodeBench. For instance, the accuracy of QwQ-32B improved from 80.3% (Round
1) to 82.1% (Round 2) on the AIME 2024 dataset, while DeepSeek-R1 showed a
similar increase from 79.7% to 82.0%. These results confirm that Multi-round
Thinking is a broadly applicable, straightforward approach to achieving stable
enhancements in model performance, underscoring its potential for future
developments in test-time scaling techniques. The key prompt: {Original
question prompt} The assistant's previous answer is: <answer> {last round
answer} </answer>, and please re-answer.Summary
AI-Generated Summary