Reforzamiento del Razonamiento General sin Verificadores
Reinforcing General Reasoning without Verifiers
May 27, 2025
Autores: Xiangxin Zhou, Zichen Liu, Anya Sims, Haonan Wang, Tianyu Pang, Chongxuan Li, Liang Wang, Min Lin, Chao Du
cs.AI
Resumen
El reciente cambio de paradigma hacia el entrenamiento de modelos de lenguaje grandes (LLMs) utilizando aprendizaje por refuerzo (RL) al estilo DeepSeek-R1-Zero con recompensas verificables ha llevado a avances impresionantes en el razonamiento matemático y de código. Sin embargo, esta metodología se limita a tareas donde es posible la verificación de respuestas basada en reglas y no se extiende naturalmente a dominios del mundo real como la química, la atención médica, la ingeniería, el derecho, la biología, los negocios y la economía. Las soluciones prácticas actuales utilizan un LLM adicional como verificador basado en modelos; sin embargo, esto introduce problemas como la dependencia de un LLM verificador fuerte, la susceptibilidad al hackeo de recompensas y la carga práctica de mantener el modelo verificador en memoria durante el entrenamiento. Para abordar esto y extender el entrenamiento al estilo DeepSeek-R1-Zero a dominios de razonamiento general, proponemos un método sin verificador (VeriFree) que evita la verificación de respuestas y, en su lugar, utiliza RL para maximizar directamente la probabilidad de generar la respuesta de referencia. Comparamos VeriFree con métodos basados en verificadores y demostramos que, además de sus beneficios prácticos significativos y requisitos de computación reducidos, VeriFree iguala e incluso supera a los métodos basados en verificadores en evaluaciones extensas en MMLU-Pro, GPQA, SuperGPQA y benchmarks relacionados con matemáticas. Además, proporcionamos perspectivas sobre este método desde múltiples ángulos: como una integración elegante del entrenamiento tanto de la política como del verificador implícito en un modelo unificado, y como un enfoque de optimización variacional. El código está disponible en https://github.com/sail-sg/VeriFree.
English
The recent paradigm shift towards training large language models (LLMs) using
DeepSeek-R1-Zero-style reinforcement learning (RL) on verifiable rewards has
led to impressive advancements in code and mathematical reasoning. However,
this methodology is limited to tasks where rule-based answer verification is
possible and does not naturally extend to real-world domains such as chemistry,
healthcare, engineering, law, biology, business, and economics. Current
practical workarounds use an additional LLM as a model-based verifier; however,
this introduces issues such as reliance on a strong verifier LLM,
susceptibility to reward hacking, and the practical burden of maintaining the
verifier model in memory during training. To address this and extend
DeepSeek-R1-Zero-style training to general reasoning domains, we propose a
verifier-free method (VeriFree) that bypasses answer verification and instead
uses RL to directly maximize the probability of generating the reference
answer. We compare VeriFree with verifier-based methods and demonstrate that,
in addition to its significant practical benefits and reduced compute
requirements, VeriFree matches and even surpasses verifier-based methods on
extensive evaluations across MMLU-Pro, GPQA, SuperGPQA, and math-related
benchmarks. Moreover, we provide insights into this method from multiple
perspectives: as an elegant integration of training both the policy and
implicit verifier in a unified model, and as a variational optimization
approach. Code is available at https://github.com/sail-sg/VeriFree.Summary
AI-Generated Summary