Até Que Ponto o Treinamento Não Supervisionado de LLM com RLVR Pode Ser Escalonado?

Resumo

A aprendizagem por reforço não supervisionada com recompensas verificáveis (URLVR) oferece um caminho para escalar o treinamento de LLMs além do gargalo da supervisão, derivando recompensas sem rótulos de verdade fundamental. Trabalhos recentes aproveitam sinais intrínsecos do modelo, mostrando ganhos iniciais promissores, embora seu potencial e limitações permaneçam pouco claros. Neste trabalho, revisitamos a URLVR e fornecemos uma análise abrangente abrangendo taxonomia, teoria e experimentos extensivos. Primeiro, classificamos os métodos URLVR em intrínsecos versus externos com base nas fontes de recompensa, depois estabelecemos uma estrutura teórica unificada revelando que todos os métodos intrínsecos convergem para o aguçamento da distribuição inicial do modelo. Este mecanismo de aguçamento tem sucesso quando a confiança inicial está alinhada com a correção, mas falha catastróficamente quando há desalinhamento. Através de experimentos sistemáticos, mostramos que as recompensas intrínsecas seguem consistentemente um padrão de ascensão e queda entre os métodos, com o momento do colapso determinado pelo *prior* do modelo em vez de escolhas de engenharia. Apesar desses limites de escalabilidade, descobrimos que as recompensas intrínsecas permanecem valiosas no treinamento no momento do teste em pequenos conjuntos de dados, e propomos o Model Collapse Step para medir o *prior* do modelo, servindo como um indicador prático para a capacidade de treinamento por RL. Finalmente, exploramos métodos de recompensa externa que fundamentam a verificação em assimetrias computacionais, mostrando evidências preliminares de que eles podem escapar do teto confiança-correção. Nossas descobertas delimitam fronteiras para a URLVR intrínseca enquanto motivam caminhos para alternativas escaláveis.

English

Unsupervised reinforcement learning with verifiable rewards (URLVR) offers a pathway to scale LLM training beyond the supervision bottleneck by deriving rewards without ground truth labels. Recent works leverage model intrinsic signals, showing promising early gains, yet their potential and limitations remain unclear. In this work, we revisit URLVR and provide a comprehensive analysis spanning taxonomy, theory and extensive experiments. We first classify URLVR methods into intrinsic versus external based on reward sources, then establish a unified theoretical framework revealing that all intrinsic methods converge toward sharpening the model's initial distribution This sharpening mechanism succeeds when initial confidence aligns with correctness but fails catastrophically when misaligned. Through systematic experiments, we show intrinsic rewards consistently follow a rise-then-fall pattern across methods, with collapse timing determined by model prior rather than engineering choices. Despite these scaling limits, we find intrinsic rewards remain valuable in test-time training on small datasets, and propose Model Collapse Step to measure model prior, serving as a practical indicator for RL trainability. Finally, we explore external reward methods that ground verification in computational asymmetries, showing preliminary evidence they may escape the confidence-correctness ceiling. Our findings chart boundaries for intrinsic URLVR while motivating paths toward scalable alternatives.

Até Que Ponto o Treinamento Não Supervisionado de LLM com RLVR Pode Ser Escalonado?

How Far Can Unsupervised RLVR Scale LLM Training?

Resumo

Support