Феномен необучаемости в RLVR для языковых моделей

Аннотация

Обучение с подкреплением с верифицируемой наградой (RLVR) доказало свою эффективность для улучшения способности больших языковых моделей (LLM) к рассуждению. Однако динамика обучения RLVR остается недостаточно изученной. В данной работе мы выявляем противоречащий интуиции феномен: среди сложных примеров, с которыми модель изначально испытывает трудности, значительная часть остается необучаемой, даже при наличии корректных траекторий. Для понимания этого явления мы сначала демонстрируем, что существующие методы оптимизации и сэмплирования не устраняют необучаемость. С помощью анализа градиентов на перекрестных примерах мы показываем, что необучаемые примеры имеют фундаментальную проблему представления, характеризующуюся низкой градиентной схожестью с остальными примерами и необобщаемыми паттернами рассуждения. Далее мы показываем, что дефекты представления трудно устранить в RL, поскольку аугментация данных не улучшает градиентную схожесть. Наше исследование дает первую систематическую характеристику необучаемых данных в обучении RLVR и выявляет фундаментальные ограничения современных подходов RL для задач рассуждения. Код и данные доступны по адресу https://github.com/yulinchen99/unlearnability-rlvr.

English

Reinforcement Learning with Verifiable Reward (RLVR) has proven effective in improving Large Language Model's (LLM) reasoning ability. However, the learning dynamics of RLVR remain underexplored. In this paper, we reveal a counterintuitive phenomenon: among hard examples that the model initially struggles with, a substantial subset remains unlearnable even when correct rollouts are present. To understand the phenomenon, we first demonstrate that existing optimization and sampling techniques fail to resolve unlearnability. With cross-example gradient analysis, we show that unlearnable examples have fundamental representation issue, characterized by low gradient similarity with the rest of the examples and ungeneralizable reasoning patterns. We further show that representation flaws are difficult to mitigate in RL, as data augmentation does not improve gradient similarity. Our study provides the first systematic characterization of unlearnable data in RLVR training and reveals fundamental limitations in current RL approaches for reasoning tasks. Code and data are available at https://github.com/yulinchen99/unlearnability-rlvr.