Rompiendo el cuello de botella de la exploración: Aprendizaje por refuerzo guiado por rúbricas para el razonamiento general en LLM
Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning
August 23, 2025
Autores: Yang Zhou, Sunzhu Li, Shunyu Liu, Wenkai Fang, Jiale Zhao, Jingwen Yang, Jianwei Lv, Kongcheng Zhang, Yihe Zhou, Hengtong Lu, Wei Chen, Yan Xie, Mingli Song
cs.AI
Resumen
Los avances recientes en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han destacado el potencial del Aprendizaje por Refuerzo (RL, por sus siglas en inglés) para facilitar la emergencia de capacidades de razonamiento. A pesar de los resultados alentadores, persiste un dilema fundamental, ya que la mejora del RL depende del aprendizaje a partir de muestras de alta calidad, mientras que la exploración de dichas muestras sigue limitada por las restricciones inherentes de los LLMs. Esto, en efecto, crea un ciclo indeseable en el que lo que no puede ser explorado no puede ser aprendido. En este trabajo, proponemos el Aprendizaje por Refuerzo con Andamiaje de Rúbricas (RuscaRL, por sus siglas en inglés), un novedoso marco de andamiaje instruccional diseñado para superar el cuello de botella en la exploración del razonamiento general de los LLMs. Específicamente, RuscaRL introduce rúbricas en forma de lista de verificación como (1) un andamiaje explícito para la exploración durante la generación de respuestas, donde se proporcionan diferentes rúbricas como guía externa dentro de las instrucciones de la tarea para dirigir respuestas diversas y de alta calidad. Esta guía se reduce gradualmente con el tiempo, fomentando que el modelo internalice los patrones de razonamiento subyacentes; (2) recompensas verificables para la explotación durante el entrenamiento del modelo, donde podemos obtener puntuaciones robustas de "LLM como Juez" utilizando las rúbricas como referencia, permitiendo un RL efectivo en tareas de razonamiento general. Experimentos extensos demuestran la superioridad del RuscaRL propuesto en varios puntos de referencia, expandiendo efectivamente los límites del razonamiento bajo la evaluación del mejor de N. Notablemente, RuscaRL incrementa significativamente el rendimiento de Qwen-2.5-7B-Instruct de 23.6 a 50.3 en HealthBench-500, superando a GPT-4.1. Además, nuestra variante ajustada en Qwen3-30B-A3B-Instruct alcanza 61.1 en HealthBench-500, superando a los principales LLMs, incluido OpenAI-o3.
English
Recent advances in Large Language Models (LLMs) have underscored the
potential of Reinforcement Learning (RL) to facilitate the emergence of
reasoning capabilities. Despite the encouraging results, a fundamental dilemma
persists as RL improvement relies on learning from high-quality samples, yet
the exploration for such samples remains bounded by the inherent limitations of
LLMs. This, in effect, creates an undesirable cycle in which what cannot be
explored cannot be learned. In this work, we propose Rubric-Scaffolded
Reinforcement Learning (RuscaRL), a novel instructional scaffolding framework
designed to break the exploration bottleneck for general LLM reasoning.
Specifically, RuscaRL introduces checklist-style rubrics as (1) explicit
scaffolding for exploration during rollout generation, where different rubrics
are provided as external guidance within task instructions to steer diverse
high-quality responses. This guidance is gradually decayed over time,
encouraging the model to internalize the underlying reasoning patterns; (2)
verifiable rewards for exploitation during model training, where we can obtain
robust LLM-as-a-Judge scores using rubrics as references, enabling effective RL
on general reasoning tasks. Extensive experiments demonstrate the superiority
of the proposed RuscaRL across various benchmarks, effectively expanding
reasoning boundaries under the best-of-N evaluation. Notably, RuscaRL
significantly boosts Qwen-2.5-7B-Instruct from 23.6 to 50.3 on HealthBench-500,
surpassing GPT-4.1. Furthermore, our fine-tuned variant on
Qwen3-30B-A3B-Instruct achieves 61.1 on HealthBench-500, outperforming leading
LLMs including OpenAI-o3.