ChatPaper.aiChatPaper

Voorbij Token-niveau Supervisie: Het Ontsluiten van het Potentieel van Decoderingsgebaseerde Regressie via Versterkingsleren

Beyond Token-level Supervision: Unlocking the Potential of Decoding-based Regression via Reinforcement Learning

December 6, 2025
Auteurs: Ming Chen, Sheng Tang, Rong-Xi Tan, Ziniu Li, Jiacheng Chen, Ke Xue, Chao Qian
cs.AI

Samenvatting

Decodering-gebaseerde regressie, die regressie herformuleert als een sequentiegeneratietaak, is naar voren gekomen als een veelbelovend paradigma voor het toepassen van grote taalmodellen voor numerieke voorspelling. De vooruitgang wordt echter belemmerd door de misalignering tussen discrete token-level doelstellingen (zoals kruis-entropie) en continue numerieke waarden. Bestaande benaderingen die vertrouwen op token-level beperkingen slagen er vaak niet in de globale grootteorde van de doelwaarde te vangen, wat hun precisie en generalisatie beperkt. In dit artikel stellen we voor om het potentieel van decodering-gebaseerde regressie te ontsluiten via Reinforcement Learning (RL). Wij formuleren het generatieproces als een Markov Beslissingsproces en gebruiken sequentie-level beloningen om globale numerieke coherentie af te dwingen. Uitgebreide experimenten op tabulaire regressie en code-metriekregressie tonen aan dat onze methode (specifiek met ReMax en GRPO) consistent zowel state-of-the-art token-level baseline-methoden als traditionele regressiekoppen overtreft, wat de superioriteit aantoont van het introduceren van sequentie-level signalen. Onze analyse onthult verder dat RL de steekproefefficiëntie en voorspellende precisie significant verbetert, waarmee decodering-gebaseerde regressie wordt gevestigd als een robuust en accuraat paradigma voor algemeen-toepasbare numerieke voorspelling.
English
Decoding-based regression, which reformulates regression as a sequence generation task, has emerged as a promising paradigm of applying large language models for numerical prediction. However, its progress is hindered by the misalignment between discrete token-level objectives (e.g., cross-entropy) and continuous numerical values. Existing approaches relying on token-level constraints often fail to capture the global magnitude of the target value, limiting their precision and generalization. In this paper, we propose to unlock the potential of decoding-based regression via Reinforcement Learning (RL). We formulate the generation process as a Markov Decision Process, utilizing sequence-level rewards to enforce global numerical coherence. Extensive experiments on tabular regression and code metric regression demonstrate that our method (specifically with ReMax and GRPO) consistently outperforms both state-of-the-art token-level baselines and traditional regression heads, showing the superiority of introducing sequence-level signals. Our analysis further reveals that RL significantly enhances sampling efficiency and predictive precision, establishing decoding-based regression as a robust and accurate paradigm for general-purpose numerical prediction.
PDF62December 10, 2025