Verstärkung des allgemeinen Denkens ohne Verifizierer
Reinforcing General Reasoning without Verifiers
May 27, 2025
Autoren: Xiangxin Zhou, Zichen Liu, Anya Sims, Haonan Wang, Tianyu Pang, Chongxuan Li, Liang Wang, Min Lin, Chao Du
cs.AI
Zusammenfassung
Der jüngste Paradigmenwechsel hin zum Training großer Sprachmodelle (LLMs) mithilfe von DeepSeek-R1-Zero-artigem Reinforcement Learning (RL) auf Basis überprüfbarer Belohnungen hat zu beeindruckenden Fortschritten im Bereich des Code- und mathematischen Denkens geführt. Diese Methodik ist jedoch auf Aufgaben beschränkt, bei denen eine regelbasierte Antwortüberprüfung möglich ist, und lässt sich nicht ohne Weiteres auf reale Anwendungsbereiche wie Chemie, Gesundheitswesen, Ingenieurwesen, Recht, Biologie, Wirtschaft und Ökonomie übertragen. Aktuelle praktische Lösungsansätze verwenden ein zusätzliches LLM als modellbasierten Verifizierer; dies führt jedoch zu Problemen wie der Abhängigkeit von einem leistungsstarken Verifizierer-LLM, der Anfälligkeit für Reward Hacking und dem praktischen Aufwand, das Verifizierer-Modell während des Trainings im Speicher zu halten. Um dies zu adressieren und das DeepSeek-R1-Zero-artige Training auf allgemeine Denkdomänen auszuweiten, schlagen wir eine verifiziererfreie Methode (VeriFree) vor, die die Antwortüberprüfung umgeht und stattdessen RL direkt zur Maximierung der Wahrscheinlichkeit der Generierung der Referenzantwort einsetzt. Wir vergleichen VeriFree mit verifiziererbasierten Methoden und zeigen, dass VeriFree neben seinen erheblichen praktischen Vorteilen und reduzierten Rechenanforderungen verifiziererbasierte Methoden in umfangreichen Evaluierungen auf MMLU-Pro, GPQA, SuperGPQA und mathematikbezogenen Benchmarks erreicht und sogar übertrifft. Darüber hinaus bieten wir Einblicke in diese Methode aus mehreren Perspektiven: als elegante Integration des Trainings sowohl der Policy als auch des impliziten Verifizierers in einem einheitlichen Modell und als variationsbasierter Optimierungsansatz. Der Code ist verfügbar unter https://github.com/sail-sg/VeriFree.
English
The recent paradigm shift towards training large language models (LLMs) using
DeepSeek-R1-Zero-style reinforcement learning (RL) on verifiable rewards has
led to impressive advancements in code and mathematical reasoning. However,
this methodology is limited to tasks where rule-based answer verification is
possible and does not naturally extend to real-world domains such as chemistry,
healthcare, engineering, law, biology, business, and economics. Current
practical workarounds use an additional LLM as a model-based verifier; however,
this introduces issues such as reliance on a strong verifier LLM,
susceptibility to reward hacking, and the practical burden of maintaining the
verifier model in memory during training. To address this and extend
DeepSeek-R1-Zero-style training to general reasoning domains, we propose a
verifier-free method (VeriFree) that bypasses answer verification and instead
uses RL to directly maximize the probability of generating the reference
answer. We compare VeriFree with verifier-based methods and demonstrate that,
in addition to its significant practical benefits and reduced compute
requirements, VeriFree matches and even surpasses verifier-based methods on
extensive evaluations across MMLU-Pro, GPQA, SuperGPQA, and math-related
benchmarks. Moreover, we provide insights into this method from multiple
perspectives: as an elegant integration of training both the policy and
implicit verifier in a unified model, and as a variational optimization
approach. Code is available at https://github.com/sail-sg/VeriFree.Summary
AI-Generated Summary