Superando o Gargalo da Exploração: Aprendizado por Reforço com Scaffolding de Rúbrica para Raciocínio Geral em LLMs
Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning
August 23, 2025
Autores: Yang Zhou, Sunzhu Li, Shunyu Liu, Wenkai Fang, Jiale Zhao, Jingwen Yang, Jianwei Lv, Kongcheng Zhang, Yihe Zhou, Hengtong Lu, Wei Chen, Yan Xie, Mingli Song
cs.AI
Resumo
Os avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) destacaram o potencial do Aprendizado por Reforço (RL) para facilitar o surgimento de capacidades de raciocínio. Apesar dos resultados encorajadores, um dilema fundamental persiste, pois a melhoria do RL depende da aprendizagem a partir de amostras de alta qualidade, mas a exploração para tais amostras permanece limitada pelas limitações inerentes dos LLMs. Isso, na prática, cria um ciclo indesejável no qual o que não pode ser explorado não pode ser aprendido. Neste trabalho, propomos o Aprendizado por Reforço com Scaffolding de Rúbrica (RuscaRL), uma nova estrutura de scaffolding instrucional projetada para romper o gargalo de exploração no raciocínio geral de LLMs. Especificamente, o RuscaRL introduz rúbricas em formato de lista de verificação como (1) scaffolding explícito para exploração durante a geração de rollouts, onde diferentes rúbricas são fornecidas como orientação externa nas instruções da tarefa para direcionar respostas diversas e de alta qualidade. Essa orientação é gradualmente reduzida ao longo do tempo, incentivando o modelo a internalizar os padrões de raciocínio subjacentes; (2) recompensas verificáveis para exploração durante o treinamento do modelo, onde podemos obter pontuações robustas de LLM-como-Juiz usando rúbricas como referência, permitindo um RL eficaz em tarefas de raciocínio geral. Experimentos extensivos demonstram a superioridade do RuscaRL proposto em vários benchmarks, expandindo efetivamente os limites do raciocínio sob a avaliação best-of-N. Notavelmente, o RuscaRL aumenta significativamente o Qwen-2.5-7B-Instruct de 23,6 para 50,3 no HealthBench-500, superando o GPT-4.1. Além disso, nossa variante ajustada no Qwen3-30B-A3B-Instruct alcança 61,1 no HealthBench-500, superando LLMs líderes, incluindo o OpenAI-o3.
English
Recent advances in Large Language Models (LLMs) have underscored the
potential of Reinforcement Learning (RL) to facilitate the emergence of
reasoning capabilities. Despite the encouraging results, a fundamental dilemma
persists as RL improvement relies on learning from high-quality samples, yet
the exploration for such samples remains bounded by the inherent limitations of
LLMs. This, in effect, creates an undesirable cycle in which what cannot be
explored cannot be learned. In this work, we propose Rubric-Scaffolded
Reinforcement Learning (RuscaRL), a novel instructional scaffolding framework
designed to break the exploration bottleneck for general LLM reasoning.
Specifically, RuscaRL introduces checklist-style rubrics as (1) explicit
scaffolding for exploration during rollout generation, where different rubrics
are provided as external guidance within task instructions to steer diverse
high-quality responses. This guidance is gradually decayed over time,
encouraging the model to internalize the underlying reasoning patterns; (2)
verifiable rewards for exploitation during model training, where we can obtain
robust LLM-as-a-Judge scores using rubrics as references, enabling effective RL
on general reasoning tasks. Extensive experiments demonstrate the superiority
of the proposed RuscaRL across various benchmarks, effectively expanding
reasoning boundaries under the best-of-N evaluation. Notably, RuscaRL
significantly boosts Qwen-2.5-7B-Instruct from 23.6 to 50.3 on HealthBench-500,
surpassing GPT-4.1. Furthermore, our fine-tuned variant on
Qwen3-30B-A3B-Instruct achieves 61.1 on HealthBench-500, outperforming leading
LLMs including OpenAI-o3.