Denk Twee Keer: Verbetering van LLM-redenering door schaling van meervoudige testtijd-denken
Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking
March 25, 2025
Auteurs: Xiaoyu Tian, Sitong Zhao, Haotian Wang, Shuaiting Chen, Yunjie Ji, Yiping Peng, Han Zhao, Xiangang Li
cs.AI
Samenvatting
Recente vooruitgang in grote taalmodellen (LLM's), zoals OpenAI-o1 en DeepSeek-R1, heeft de effectiviteit van test-time scaling aangetoond, waarbij uitgebreide redeneerprocessen de modelprestaties aanzienlijk verbeteren. Desondanks worden huidige modellen beperkt door tekortkomingen in het verwerken van lange teksten en de efficiëntie van reinforcement learning (RL)-training. Om deze problemen aan te pakken, stellen we een eenvoudige maar effectieve test-time scaling benadering voor: Multi-round Thinking. Deze methode verfijnt het redeneren van het model iteratief door eerdere antwoorden te gebruiken als prompts voor volgende rondes. Uitgebreide experimenten met meerdere modellen, waaronder QwQ-32B en DeepSeek-R1, laten consistent prestatieverbeteringen zien op verschillende benchmarks zoals AIME 2024, MATH-500, GPQA-diamond en LiveCodeBench. Zo verbeterde de nauwkeurigheid van QwQ-32B van 80,3% (Ronde 1) naar 82,1% (Ronde 2) op de AIME 2024 dataset, terwijl DeepSeek-R1 een vergelijkbare stijging liet zien van 79,7% naar 82,0%. Deze resultaten bevestigen dat Multi-round Thinking een breed toepasbare, eenvoudige benadering is om stabiele verbeteringen in modelprestaties te bereiken, wat het potentieel ervan voor toekomstige ontwikkelingen in test-time scaling technieken onderstreept. De belangrijkste prompt: {Originele vraagprompt} Het vorige antwoord van de assistent is: <antwoord> {vorig ronde antwoord} </antwoord>, en beantwoord de vraag opnieuw.
English
Recent advances in large language models (LLMs), such as OpenAI-o1 and
DeepSeek-R1, have demonstrated the effectiveness of test-time scaling, where
extended reasoning processes substantially enhance model performance. Despite
this, current models are constrained by limitations in handling long texts and
reinforcement learning (RL) training efficiency. To address these issues, we
propose a simple yet effective test-time scaling approach Multi-round Thinking.
This method iteratively refines model reasoning by leveraging previous answers
as prompts for subsequent rounds. Extensive experiments across multiple models,
including QwQ-32B and DeepSeek-R1, consistently show performance improvements
on various benchmarks such as AIME 2024, MATH-500, GPQA-diamond, and
LiveCodeBench. For instance, the accuracy of QwQ-32B improved from 80.3% (Round
1) to 82.1% (Round 2) on the AIME 2024 dataset, while DeepSeek-R1 showed a
similar increase from 79.7% to 82.0%. These results confirm that Multi-round
Thinking is a broadly applicable, straightforward approach to achieving stable
enhancements in model performance, underscoring its potential for future
developments in test-time scaling techniques. The key prompt: {Original
question prompt} The assistant's previous answer is: <answer> {last round
answer} </answer>, and please re-answer.Summary
AI-Generated Summary