Укрепление общего рассуждения без использования верификаторов
Reinforcing General Reasoning without Verifiers
May 27, 2025
Авторы: Xiangxin Zhou, Zichen Liu, Anya Sims, Haonan Wang, Tianyu Pang, Chongxuan Li, Liang Wang, Min Lin, Chao Du
cs.AI
Аннотация
Недавний сдвиг парадигмы в сторону обучения крупных языковых моделей (LLM) с использованием обучения с подкреплением (RL) в стиле DeepSeek-R1-Zero на основе проверяемых наград привел к впечатляющим достижениям в области программирования и математического мышления. Однако этот метод ограничен задачами, где возможна проверка ответов на основе правил, и не распространяется естественным образом на реальные области, такие как химия, здравоохранение, инженерия, право, биология, бизнес и экономика. Текущие практические обходные пути используют дополнительную LLM в качестве проверяющей модели; однако это влечет за собой проблемы, такие как зависимость от мощной проверяющей LLM, уязвимость к взлому наград и практические трудности с поддержанием проверяющей модели в памяти во время обучения. Чтобы решить эту проблему и расширить обучение в стиле DeepSeek-R1-Zero на общие области рассуждений, мы предлагаем метод без проверки (VeriFree), который обходит проверку ответов и вместо этого использует RL для непосредственного максимизации вероятности генерации эталонного ответа. Мы сравниваем VeriFree с методами, основанными на проверке, и демонстрируем, что, помимо значительных практических преимуществ и снижения вычислительных требований, VeriFree соответствует и даже превосходит методы с проверкой в обширных оценках на MMLU-Pro, GPQA, SuperGPQA и математических бенчмарках. Более того, мы предоставляем инсайты в этот метод с нескольких точек зрения: как элегантную интеграцию обучения как политики, так и неявной проверяющей модели в единой модели, и как подход вариационной оптимизации. Код доступен по адресу https://github.com/sail-sg/VeriFree.
English
The recent paradigm shift towards training large language models (LLMs) using
DeepSeek-R1-Zero-style reinforcement learning (RL) on verifiable rewards has
led to impressive advancements in code and mathematical reasoning. However,
this methodology is limited to tasks where rule-based answer verification is
possible and does not naturally extend to real-world domains such as chemistry,
healthcare, engineering, law, biology, business, and economics. Current
practical workarounds use an additional LLM as a model-based verifier; however,
this introduces issues such as reliance on a strong verifier LLM,
susceptibility to reward hacking, and the practical burden of maintaining the
verifier model in memory during training. To address this and extend
DeepSeek-R1-Zero-style training to general reasoning domains, we propose a
verifier-free method (VeriFree) that bypasses answer verification and instead
uses RL to directly maximize the probability of generating the reference
answer. We compare VeriFree with verifier-based methods and demonstrate that,
in addition to its significant practical benefits and reduced compute
requirements, VeriFree matches and even surpasses verifier-based methods on
extensive evaluations across MMLU-Pro, GPQA, SuperGPQA, and math-related
benchmarks. Moreover, we provide insights into this method from multiple
perspectives: as an elegant integration of training both the policy and
implicit verifier in a unified model, and as a variational optimization
approach. Code is available at https://github.com/sail-sg/VeriFree.Summary
AI-Generated Summary