ChatPaper.aiChatPaper

Eine empirische Studie zur Elicitation und Verbesserung von R1-ähnlichen Reasoning-Modellen

An Empirical Study on Eliciting and Improving R1-like Reasoning Models

March 6, 2025
Autoren: Zhipeng Chen, Yingqian Min, Beichen Zhang, Jie Chen, Jinhao Jiang, Daixuan Cheng, Wayne Xin Zhao, Zheng Liu, Xu Miao, Yang Lu, Lei Fang, Zhongyuan Wang, Ji-Rong Wen
cs.AI

Zusammenfassung

In diesem Bericht präsentieren wir den dritten technischen Bericht zur Entwicklung von Slow-Thinking-Modellen im Rahmen des STILL-Projekts. Da der technische Weg klarer wird, hat die Skalierung des RL-Trainings eine zentrale Technik zur Implementierung solcher Reasoning-Modelle dar. Wir experimentieren systematisch mit und dokumentieren die Auswirkungen verschiedener Faktoren, die das RL-Training beeinflussen, und führen Experimente sowohl an Basismodellen als auch an feinabgestimmten Modellen durch. Insbesondere zeigen wir, dass unser RL-Trainingsansatz die Qwen2.5-32B-Basismodelle konsistent verbessert, sowohl die Antwortlänge als auch die Testgenauigkeit erhöht. Darüber hinaus zeigen wir, dass selbst ein Modell wie DeepSeek-R1-Distill-Qwen-1.5B, das bereits ein hohes Leistungsniveau erreicht hat, durch RL-Training weiter verfeinert werden kann und eine Genauigkeit von 39,33 % auf AIME 2024 erreicht. Neben dem RL-Training untersuchen wir auch die Verwendung von Werkzeugmanipulation und stellen fest, dass sie die Reasoning-Leistung großer Reasoning-Modelle erheblich steigert. Dieser Ansatz erreicht eine bemerkenswerte Genauigkeit von 86,67 % mit Greedy-Search auf AIME 2024, was seine Wirksamkeit bei der Verbesserung der Modellfähigkeiten unterstreicht. Wir veröffentlichen unsere Ressourcen auf der STILL-Projektwebsite: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
English
In this report, we present the third technical report on the development of slow-thinking models as part of the STILL project. As the technical pathway becomes clearer, scaling RL training has become a central technique for implementing such reasoning models. We systematically experiment with and document the effects of various factors influencing RL training, conducting experiments on both base models and fine-tuned models. Specifically, we demonstrate that our RL training approach consistently improves the Qwen2.5-32B base models, enhancing both response length and test accuracy. Furthermore, we show that even when a model like DeepSeek-R1-Distill-Qwen-1.5B has already achieved a high performance level, it can be further refined through RL training, reaching an accuracy of 39.33% on AIME 2024. Beyond RL training, we also explore the use of tool manipulation, finding that it significantly boosts the reasoning performance of large reasoning models. This approach achieves a remarkable accuracy of 86.67% with greedy search on AIME 2024, underscoring its effectiveness in enhancing model capabilities. We release our resources at the STILL project website: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.

Summary

AI-Generated Summary

PDF83March 10, 2025