ChatPaper.aiChatPaper

Pensez à deux fois : Améliorer le raisonnement des LLM par la mise à l'échelle de la réflexion multi-tours lors des tests

Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking

March 25, 2025
Auteurs: Xiaoyu Tian, Sitong Zhao, Haotian Wang, Shuaiting Chen, Yunjie Ji, Yiping Peng, Han Zhao, Xiangang Li
cs.AI

Résumé

Les récentes avancées dans les modèles de langage à grande échelle (LLMs), tels qu'OpenAI-o1 et DeepSeek-R1, ont démontré l'efficacité de la mise à l'échelle au moment du test, où des processus de raisonnement étendus améliorent considérablement les performances du modèle. Malgré cela, les modèles actuels sont limités par des contraintes dans la gestion de textes longs et l'efficacité de l'entraînement par apprentissage par renforcement (RL). Pour résoudre ces problèmes, nous proposons une approche simple mais efficace de mise à l'échelle au moment du test : la Pensée Multi-tours. Cette méthode affine itérativement le raisonnement du modèle en exploitant les réponses précédentes comme incitations pour les tours suivants. Des expériences approfondies sur plusieurs modèles, y compris QwQ-32B et DeepSeek-R1, montrent systématiquement des améliorations de performance sur divers benchmarks tels que AIME 2024, MATH-500, GPQA-diamond et LiveCodeBench. Par exemple, la précision de QwQ-32B est passée de 80,3 % (Tour 1) à 82,1 % (Tour 2) sur le jeu de données AIME 2024, tandis que DeepSeek-R1 a montré une augmentation similaire de 79,7 % à 82,0 %. Ces résultats confirment que la Pensée Multi-tours est une approche largement applicable et simple pour obtenir des améliorations stables des performances du modèle, soulignant son potentiel pour les développements futurs des techniques de mise à l'échelle au moment du test. L'incitation clé : {Question originale} La réponse précédente de l'assistant est : <réponse> {réponse du dernier tour} </réponse>, et veuillez répondre à nouveau.
English
Recent advances in large language models (LLMs), such as OpenAI-o1 and DeepSeek-R1, have demonstrated the effectiveness of test-time scaling, where extended reasoning processes substantially enhance model performance. Despite this, current models are constrained by limitations in handling long texts and reinforcement learning (RL) training efficiency. To address these issues, we propose a simple yet effective test-time scaling approach Multi-round Thinking. This method iteratively refines model reasoning by leveraging previous answers as prompts for subsequent rounds. Extensive experiments across multiple models, including QwQ-32B and DeepSeek-R1, consistently show performance improvements on various benchmarks such as AIME 2024, MATH-500, GPQA-diamond, and LiveCodeBench. For instance, the accuracy of QwQ-32B improved from 80.3% (Round 1) to 82.1% (Round 2) on the AIME 2024 dataset, while DeepSeek-R1 showed a similar increase from 79.7% to 82.0%. These results confirm that Multi-round Thinking is a broadly applicable, straightforward approach to achieving stable enhancements in model performance, underscoring its potential for future developments in test-time scaling techniques. The key prompt: {Original question prompt} The assistant's previous answer is: <answer> {last round answer} </answer>, and please re-answer.

Summary

AI-Generated Summary

PDF265March 26, 2025