Renforcer le raisonnement général sans vérificateurs
Reinforcing General Reasoning without Verifiers
May 27, 2025
Auteurs: Xiangxin Zhou, Zichen Liu, Anya Sims, Haonan Wang, Tianyu Pang, Chongxuan Li, Liang Wang, Min Lin, Chao Du
cs.AI
Résumé
Le récent changement de paradigme vers l'entraînement de grands modèles de langage (LLMs) en utilisant l'apprentissage par renforcement (RL) de style DeepSeek-R1-Zero sur des récompenses vérifiables a conduit à des avancées impressionnantes dans le raisonnement en code et en mathématiques. Cependant, cette méthodologie est limitée aux tâches où une vérification des réponses basée sur des règles est possible et ne s'étend pas naturellement à des domaines du monde réel tels que la chimie, la santé, l'ingénierie, le droit, la biologie, les affaires et l'économie. Les solutions pratiques actuelles utilisent un LLM supplémentaire comme vérificateur basé sur un modèle ; cependant, cela introduit des problèmes tels que la dépendance à un LLM vérificateur puissant, la vulnérabilité au piratage des récompenses, et la charge pratique de maintenir le modèle vérificateur en mémoire pendant l'entraînement. Pour résoudre ce problème et étendre l'entraînement de style DeepSeek-R1-Zero à des domaines de raisonnement général, nous proposons une méthode sans vérificateur (VeriFree) qui contourne la vérification des réponses et utilise plutôt le RL pour maximiser directement la probabilité de générer la réponse de référence. Nous comparons VeriFree avec des méthodes basées sur un vérificateur et démontrons que, en plus de ses avantages pratiques significatifs et de ses besoins réduits en calcul, VeriFree égale et dépasse même les méthodes basées sur un vérificateur lors d'évaluations approfondies sur MMLU-Pro, GPQA, SuperGPQA et des benchmarks liés aux mathématiques. De plus, nous fournissons des insights sur cette méthode sous plusieurs angles : comme une intégration élégante de l'entraînement à la fois de la politique et du vérificateur implicite dans un modèle unifié, et comme une approche d'optimisation variationnelle. Le code est disponible à l'adresse https://github.com/sail-sg/VeriFree.
English
The recent paradigm shift towards training large language models (LLMs) using
DeepSeek-R1-Zero-style reinforcement learning (RL) on verifiable rewards has
led to impressive advancements in code and mathematical reasoning. However,
this methodology is limited to tasks where rule-based answer verification is
possible and does not naturally extend to real-world domains such as chemistry,
healthcare, engineering, law, biology, business, and economics. Current
practical workarounds use an additional LLM as a model-based verifier; however,
this introduces issues such as reliance on a strong verifier LLM,
susceptibility to reward hacking, and the practical burden of maintaining the
verifier model in memory during training. To address this and extend
DeepSeek-R1-Zero-style training to general reasoning domains, we propose a
verifier-free method (VeriFree) that bypasses answer verification and instead
uses RL to directly maximize the probability of generating the reference
answer. We compare VeriFree with verifier-based methods and demonstrate that,
in addition to its significant practical benefits and reduced compute
requirements, VeriFree matches and even surpasses verifier-based methods on
extensive evaluations across MMLU-Pro, GPQA, SuperGPQA, and math-related
benchmarks. Moreover, we provide insights into this method from multiple
perspectives: as an elegant integration of training both the policy and
implicit verifier in a unified model, and as a variational optimization
approach. Code is available at https://github.com/sail-sg/VeriFree.Summary
AI-Generated Summary