El fenómeno de inaprendibilidad en RLVR para modelos de lenguaje

Resumen

El Aprendizaje por Refuerzo con Recompensa Verificable (RLVR) ha demostrado ser efectivo para mejorar la capacidad de razonamiento de los Modelos de Lenguaje Grande (LLM). Sin embargo, las dinámicas de aprendizaje del RLVR siguen sin explorarse en profundidad. En este artículo, revelamos un fenómeno contraintuitivo: entre los ejemplos difíciles con los que el modelo inicialmente tiene dificultades, un subconjunto sustancial permanece no aprendible incluso cuando están presentes trayectorias correctas. Para comprender el fenómeno, primero demostramos que las técnicas existentes de optimización y muestreo no logran resolver la falta de aprendizaje. Mediante un análisis de gradientes entre ejemplos, mostramos que los ejemplos no aprendibles presentan un problema fundamental de representación, caracterizado por una baja similitud de gradientes con el resto de los ejemplos y patrones de razonamiento no generalizables. Además, demostramos que los defectos de representación son difíciles de mitigar en RL, ya que el aumento de datos no mejora la similitud de gradientes. Nuestro estudio proporciona la primera caracterización sistemática de los datos no aprendibles en el entrenamiento con RLVR y revela limitaciones fundamentales en los enfoques actuales de RL para tareas de razonamiento. El código y los datos están disponibles en https://github.com/yulinchen99/unlearnability-rlvr.

English

Reinforcement Learning with Verifiable Reward (RLVR) has proven effective in improving Large Language Model's (LLM) reasoning ability. However, the learning dynamics of RLVR remain underexplored. In this paper, we reveal a counterintuitive phenomenon: among hard examples that the model initially struggles with, a substantial subset remains unlearnable even when correct rollouts are present. To understand the phenomenon, we first demonstrate that existing optimization and sampling techniques fail to resolve unlearnability. With cross-example gradient analysis, we show that unlearnable examples have fundamental representation issue, characterized by low gradient similarity with the rest of the examples and ungeneralizable reasoning patterns. We further show that representation flaws are difficult to mitigate in RL, as data augmentation does not improve gradient similarity. Our study provides the first systematic characterization of unlearnable data in RLVR training and reveals fundamental limitations in current RL approaches for reasoning tasks. Code and data are available at https://github.com/yulinchen99/unlearnability-rlvr.