DelTA: Discriminatieve Token-krediettoewijzing voor Reinforcement Learning van Verifieerbare Beloningen

Samenvatting

Reinforcement learning van verifieerbare beloningen (RLVR) is uitgegroeid tot een centrale techniek voor het verbeteren van de redeneervaardigheden van grote taalmodellen. Ondanks de effectiviteit ervan blijft het slecht begrepen hoe beloningen op responsniveau zich vertalen in veranderingen in waarschijnlijkheden op tokenniveau. We introduceren een discriminatorvisie op RLVR-updates, waarbij we aantonen dat de beleidsgradiënt-updaterichting impliciet fungeert als een lineaire discriminator over token-gradiëntvectoren en daarmee bepaalt welke tokenwaarschijnlijkheden tijdens het leren worden verhoogd of verlaagd. Onder standaard sequentieniveau-RLVR wordt deze discriminator geconstrueerd uit centroïden aan de positieve en negatieve zijde, gevormd door voordeel-gewogen middeling van token-gradiëntvectoren. Een dergelijke centroïdeconstructie kan echter worden gedomineerd door gedeelde hoogfrequente patronen, zoals opmaaktokens, waardoor schaarse maar discriminatieve richtingen die hoogbeloonde responsen beter onderscheiden van laagbeloonde, worden verwaterd. Om deze beperking aan te pakken, stellen we DelTA voor, een discriminatieve tokenkrediettoewijzingsmethode die tokencoëfficiënten schat om zijspecifieke token-gradiëntrichtingen te versterken en gedeelde of zwak discriminatieve richtingen te verzwakken. Deze coëfficiënten herwegen een zelf-genormaliseerd RLVR-surrogaat, waardoor de effectieve centroïden per zijde contrastiever worden en daarmee de RLVR-updaterichting wordt hervormd. Op zeven wiskundige benchmarks presteert DelTA 3,26 en 2,62 gemiddelde punten beter dan de sterkste baselines van dezelfde schaal op respectievelijk Qwen3-8B-Base en Qwen3-14B-Base. Aanvullende resultaten op codegeneratie, een andere backbone en evaluaties buiten het domein tonen verder de generalisatiecapaciteit van DelTA aan.

English

Reinforcement learning from verifiable rewards (RLVR) has emerged as a central technique for improving the reasoning capabilities of large language models. Despite its effectiveness, how response-level rewards translate into token-level probability changes remains poorly understood. We introduce a discriminator view of RLVR updates, showing that the policy-gradient update direction implicitly acts as a linear discriminator over token-gradient vectors and thereby determines which token probabilities are increased or decreased during learning. Under standard sequence-level RLVR, this discriminator is constructed from positive- and negative-side centroids formed by advantage-weighted averaging of token-gradient vectors. However, such centroid construction can be dominated by shared high-frequency patterns, such as formatting tokens, diluting sparse yet discriminative directions that better distinguish high-reward responses from low-reward ones. To address this limitation, we propose DelTA, a discriminative token credit assignment method that estimates token coefficients to amplify side-specific token-gradient directions and downweight shared or weakly discriminative ones. These coefficients reweight a self-normalized RLVR surrogate, making the effective side-wise centroids more contrastive and thereby reshaping the RLVR update direction. On seven mathematical benchmarks, DelTA outperforms the strongest same-scale baselines by 3.26 and 2.62 average points on Qwen3-8B-Base and Qwen3-14B-Base, respectively. Additional results on code generation, a different backbone, and out-of-domain evaluations further demonstrate the generalization ability of DelTA.