Das Phänomen der Nicht-Erlernbarkeit in RLVR für Sprachmodelle

Zusammenfassung

Verstärkungslernen mit verifizierbarer Belohnung (RLVR) hat sich als wirksam erwiesen, um die Argumentationsfähigkeit großer Sprachmodelle (LLMs) zu verbessern. Allerdings ist die Lerndynamik von RLVR noch wenig erforscht. In dieser Arbeit decken wir ein kontraintuitives Phänomen auf: Bei schwierigen Beispielen, mit denen das Modell zunächst zu kämpfen hat, bleibt ein erheblicher Teil selbst dann unlernbar, wenn korrekte Rollouts vorliegen. Um das Phänomen zu verstehen, zeigen wir zunächst, dass bestehende Optimierungs- und Stichprobentechniken die Unlernbarkeit nicht beheben können. Mittels beispielübergreifender Gradientenanalyse weisen wir nach, dass unlernbare Beispiele ein grundlegendes Repräsentationsproblem aufweisen, das sich durch eine geringe Gradientenähnlichkeit mit den übrigen Beispielen und nicht generalisierbare Argumentationsmuster auszeichnet. Wir zeigen ferner, dass Repräsentationsfehler im RL schwer zu beheben sind, da Datenerweiterung die Gradientenähnlichkeit nicht verbessert. Unsere Studie liefert die erste systematische Charakterisierung unlernbarer Daten im RLVR-Training und deckt grundlegende Einschränkungen aktueller RL-Ansätze für Argumentationsaufgaben auf. Code und Daten sind verfügbar unter https://github.com/yulinchen99/unlearnability-rlvr.

English

Reinforcement Learning with Verifiable Reward (RLVR) has proven effective in improving Large Language Model's (LLM) reasoning ability. However, the learning dynamics of RLVR remain underexplored. In this paper, we reveal a counterintuitive phenomenon: among hard examples that the model initially struggles with, a substantial subset remains unlearnable even when correct rollouts are present. To understand the phenomenon, we first demonstrate that existing optimization and sampling techniques fail to resolve unlearnability. With cross-example gradient analysis, we show that unlearnable examples have fundamental representation issue, characterized by low gradient similarity with the rest of the examples and ungeneralizable reasoning patterns. We further show that representation flaws are difficult to mitigate in RL, as data augmentation does not improve gradient similarity. Our study provides the first systematic characterization of unlearnable data in RLVR training and reveals fundamental limitations in current RL approaches for reasoning tasks. Code and data are available at https://github.com/yulinchen99/unlearnability-rlvr.