O Fenômeno da Não-Aprendibilidade em RLVR para Modelos de Linguagem

Resumo

Aprendizado por Reforço com Recompensa Verificável (RLVR) tem se mostrado eficaz na melhoria da capacidade de raciocínio de Modelos de Linguagem de Grande Porte (LLM). No entanto, a dinâmica de aprendizado do RLVR ainda é pouco explorada. Neste artigo, revelamos um fenômeno contraintuitivo: entre exemplos difíceis com os quais o modelo inicialmente luta, um subconjunto substancial permanece não aprendível mesmo quando rolagens corretas estão presentes. Para compreender o fenômeno, primeiro demonstramos que técnicas existentes de otimização e amostragem não conseguem resolver a não aprendibilidade. Com análise de gradiente entre exemplos, mostramos que exemplos não aprendíveis apresentam um problema fundamental de representação, caracterizado por baixa similaridade de gradiente com o restante dos exemplos e padrões de raciocínio não generalizáveis. Mostramos ainda que as falhas de representação são difíceis de mitigar no RL, pois o aumento de dados não melhora a similaridade de gradiente. Nosso estudo fornece a primeira caracterização sistemática de dados não aprendíveis no treinamento com RLVR e revela limitações fundamentais nas abordagens atuais de RL para tarefas de raciocínio. Código e dados estão disponíveis em https://github.com/yulinchen99/unlearnability-rlvr.

English

Reinforcement Learning with Verifiable Reward (RLVR) has proven effective in improving Large Language Model's (LLM) reasoning ability. However, the learning dynamics of RLVR remain underexplored. In this paper, we reveal a counterintuitive phenomenon: among hard examples that the model initially struggles with, a substantial subset remains unlearnable even when correct rollouts are present. To understand the phenomenon, we first demonstrate that existing optimization and sampling techniques fail to resolve unlearnability. With cross-example gradient analysis, we show that unlearnable examples have fundamental representation issue, characterized by low gradient similarity with the rest of the examples and ungeneralizable reasoning patterns. We further show that representation flaws are difficult to mitigate in RL, as data augmentation does not improve gradient similarity. Our study provides the first systematic characterization of unlearnable data in RLVR training and reveals fundamental limitations in current RL approaches for reasoning tasks. Code and data are available at https://github.com/yulinchen99/unlearnability-rlvr.