ChatPaper.aiChatPaper

Подумайте дважды: улучшение рассуждений языковых моделей за счет масштабирования многоэтапного мышления во время тестирования

Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking

March 25, 2025
Авторы: Xiaoyu Tian, Sitong Zhao, Haotian Wang, Shuaiting Chen, Yunjie Ji, Yiping Peng, Han Zhao, Xiangang Li
cs.AI

Аннотация

Недавние достижения в области крупных языковых моделей (LLM), таких как OpenAI-o1 и DeepSeek-R1, продемонстрировали эффективность масштабирования на этапе тестирования, при котором расширенные процессы рассуждения существенно улучшают производительность моделей. Однако текущие модели ограничены трудностями в обработке длинных текстов и эффективностью обучения с подкреплением (RL). Для решения этих проблем мы предлагаем простой, но эффективный подход к масштабированию на этапе тестирования — метод "Многораундовое мышление". Этот метод итеративно улучшает рассуждения модели, используя предыдущие ответы в качестве подсказок для последующих раундов. Многочисленные эксперименты на различных моделях, включая QwQ-32B и DeepSeek-R1, стабильно показывают улучшение производительности на различных тестовых наборах, таких как AIME 2024, MATH-500, GPQA-diamond и LiveCodeBench. Например, точность модели QwQ-32B улучшилась с 80,3% (Раунд 1) до 82,1% (Раунд 2) на наборе данных AIME 2024, в то время как DeepSeek-R1 показала аналогичный рост с 79,7% до 82,0%. Эти результаты подтверждают, что "Многораундовое мышление" является универсальным и простым подходом для достижения стабильного улучшения производительности моделей, подчеркивая его потенциал для будущего развития методов масштабирования на этапе тестирования. Ключевая подсказка: {Исходный вопрос} Предыдущий ответ ассистента: <ответ> {ответ предыдущего раунда} </ответ>, пожалуйста, ответьте снова.
English
Recent advances in large language models (LLMs), such as OpenAI-o1 and DeepSeek-R1, have demonstrated the effectiveness of test-time scaling, where extended reasoning processes substantially enhance model performance. Despite this, current models are constrained by limitations in handling long texts and reinforcement learning (RL) training efficiency. To address these issues, we propose a simple yet effective test-time scaling approach Multi-round Thinking. This method iteratively refines model reasoning by leveraging previous answers as prompts for subsequent rounds. Extensive experiments across multiple models, including QwQ-32B and DeepSeek-R1, consistently show performance improvements on various benchmarks such as AIME 2024, MATH-500, GPQA-diamond, and LiveCodeBench. For instance, the accuracy of QwQ-32B improved from 80.3% (Round 1) to 82.1% (Round 2) on the AIME 2024 dataset, while DeepSeek-R1 showed a similar increase from 79.7% to 82.0%. These results confirm that Multi-round Thinking is a broadly applicable, straightforward approach to achieving stable enhancements in model performance, underscoring its potential for future developments in test-time scaling techniques. The key prompt: {Original question prompt} The assistant's previous answer is: <answer> {last round answer} </answer>, and please re-answer.

Summary

AI-Generated Summary

PDF265March 26, 2025