ChatPaper.aiChatPaper

Pense Duas Vezes: Aprimorando o Raciocínio de LLMs ao Escalonar o Pensamento em Múltiplas Rodadas Durante o Teste

Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking

March 25, 2025
Autores: Xiaoyu Tian, Sitong Zhao, Haotian Wang, Shuaiting Chen, Yunjie Ji, Yiping Peng, Han Zhao, Xiangang Li
cs.AI

Resumo

Os recentes avanços em modelos de linguagem de grande escala (LLMs), como o OpenAI-o1 e o DeepSeek-R1, demonstraram a eficácia do escalonamento em tempo de teste, onde processos de raciocínio estendidos melhoram substancialmente o desempenho do modelo. Apesar disso, os modelos atuais são limitados por restrições no tratamento de textos longos e na eficiência do treinamento de aprendizado por reforço (RL). Para abordar essas questões, propomos uma abordagem simples, porém eficaz, de escalonamento em tempo de teste chamada Pensamento em Múltiplas Rodadas. Esse método refina iterativamente o raciocínio do modelo, utilizando respostas anteriores como prompts para rodadas subsequentes. Experimentos extensivos em vários modelos, incluindo QwQ-32B e DeepSeek-R1, mostram consistentemente melhorias de desempenho em diversos benchmarks, como AIME 2024, MATH-500, GPQA-diamond e LiveCodeBench. Por exemplo, a precisão do QwQ-32B melhorou de 80,3% (Rodada 1) para 82,1% (Rodada 2) no conjunto de dados AIME 2024, enquanto o DeepSeek-R1 mostrou um aumento semelhante de 79,7% para 82,0%. Esses resultados confirmam que o Pensamento em Múltiplas Rodadas é uma abordagem amplamente aplicável e direta para alcançar melhorias estáveis no desempenho do modelo, destacando seu potencial para desenvolvimentos futuros em técnicas de escalonamento em tempo de teste. O prompt-chave: {Prompt original da pergunta} A resposta anterior do assistente é: <resposta> {resposta da última rodada} </resposta>, e por favor, responda novamente.
English
Recent advances in large language models (LLMs), such as OpenAI-o1 and DeepSeek-R1, have demonstrated the effectiveness of test-time scaling, where extended reasoning processes substantially enhance model performance. Despite this, current models are constrained by limitations in handling long texts and reinforcement learning (RL) training efficiency. To address these issues, we propose a simple yet effective test-time scaling approach Multi-round Thinking. This method iteratively refines model reasoning by leveraging previous answers as prompts for subsequent rounds. Extensive experiments across multiple models, including QwQ-32B and DeepSeek-R1, consistently show performance improvements on various benchmarks such as AIME 2024, MATH-500, GPQA-diamond, and LiveCodeBench. For instance, the accuracy of QwQ-32B improved from 80.3% (Round 1) to 82.1% (Round 2) on the AIME 2024 dataset, while DeepSeek-R1 showed a similar increase from 79.7% to 82.0%. These results confirm that Multi-round Thinking is a broadly applicable, straightforward approach to achieving stable enhancements in model performance, underscoring its potential for future developments in test-time scaling techniques. The key prompt: {Original question prompt} The assistant's previous answer is: <answer> {last round answer} </answer>, and please re-answer.

Summary

AI-Generated Summary

PDF265March 26, 2025