CEPO: RLVR-Selbstdestillation mittels Contrastive Evidence Policy Optimization

Zusammenfassung

Wenn ein Modell unter Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) eine korrekte Lösung erzeugt, erhält jeder Token dasselbe Belohnungssignal, unabhängig davon, ob es sich um einen entscheidenden Denkschritt oder eine grammatikalische Fülloperation handelt. Ein naheliegender Lösungsansatz besteht darin, das Modell durch eine Lehrervorgabe auf die richtige Antwort zu konditionieren und jene Token zu identifizieren, die es bei Kenntnis der Antwort anders generiert hätte. Frühere Arbeiten zeigen, dass dies entweder das Training beeinträchtigt, indem die Antwort in den Gradienten sickert, oder ein schwaches Signal erzeugt, das nicht zwischen entscheidenden Schritten und Füllinformationen unterscheiden kann, da beide im Vergleich zur Modellbasislinie gleichermaßen überraschend wirken. Wir schlagen Contrastive Evidence Policy Optimization (CEPO) vor, das bei jedem Token eine schärfere Frage stellt: nicht nur „Bevorzugt die richtige Antwort diesen Token?“, sondern „Bevorzugt die richtige Antwort ihn, während die falsche Antwort ihn ablehnt?“ Ein Token, das beides erfüllt, ist ein echter Denkschritt; ein Token, das keines erfüllt, ist Füllmaterial. Die Lehrervorgabe für die falsche Antwort wird aus abgelehnten Rollouts im selben Trainingsbatch konstruiert, ohne zusätzliche Stichprobenkosten. Wir beweisen, dass CEPO alle strukturellen Sicherheitsgarantien des bisherigen Stands der Technik übernimmt, während es die Kreditzuweisung bei entscheidenden Tokens strikt verschärft – eine Verbesserung, die genau an Füllpositionen verschwindet. Empirisch erreicht CEPO eine durchschnittliche Genauigkeit von 43,43 % bzw. 60,56 % über fünf multimodale mathematische Reasoning-Benchmarks im Maßstab 2B bzw. 4B, im Vergleich zu 41,17 % bzw. 57,43 % für GRPO unter identischen Trainingsbudgets. Verteilungsabgleichende Selbst-Destillationsmethoden (OPSD, SDPO) fallen unter die untrainierte Basislinie und bestätigen empirisch den von unserer Theorie vorhergesagten Informationsverlust. Unser Code ist verfügbar unter https://github.com/ahmedheakl/CEPO.

English

When a model produces a correct solution under reinforcement learning with verifiable rewards (RLVR), every token receives the same reward signal regardless of whether it was a decisive reasoning step or a grammatical filler. A natural fix is to condition the model on the correct answer as a teacher, identifying tokens it would have generated differently had it known the answer. Prior work shows this either corrupts training by leaking the answer into the gradient, or produces a weak signal that cannot distinguish decisive steps from filler, since both look equally surprising relative to the model's baseline. We propose Contrastive Evidence Policy Optimization (CEPO), which asks a sharper question at every token: not just "does the correct answer favor this token?" but "does the correct answer favor it while the wrong answer disfavors it?" A token satisfying both is a genuine reasoning step; one satisfying neither is filler. The wrong-answer teacher is constructed from rejected rollouts already in the training batch, incurring no additional sampling cost. We prove CEPO inherits all structural safety guarantees of the prior state of the art while strictly sharpening credit at decisive tokens, with the improvement vanishing exactly at filler positions. Empirically, CEPO achieves 43.43% and 60.56% average accuracy across five multimodal mathematical reasoning benchmarks at 2B and 4B scale, respectively, versus 41.17% and 57.43% for GRPO under identical training budgets. Distribution-matching self-distillation methods (OPSD, SDPO) fall below the untrained baseline, empirically confirming the information leakage our theory predicts. Our code is available at https://github.com/ahmedheakl/CEPO.