Au-delà de la supervision au niveau des tokens : Libérer le potentiel de la régression basée sur le décodage via l'apprentissage par renforcement
Beyond Token-level Supervision: Unlocking the Potential of Decoding-based Regression via Reinforcement Learning
December 6, 2025
papers.authors: Ming Chen, Sheng Tang, Rong-Xi Tan, Ziniu Li, Jiacheng Chen, Ke Xue, Chao Qian
cs.AI
papers.abstract
La régression basée sur le décodage, qui reformule la régression comme une tâche de génération de séquence, est apparue comme un paradigme prometteur pour appliquer les grands modèles de langage à la prédiction numérique. Cependant, ses progrès sont entravés par le désalignement entre les objectifs discrets au niveau des tokens (par exemple, l'entropie croisée) et les valeurs numériques continues. Les approches existantes reposant sur des contraintes au niveau des tokens échouent souvent à capturer l'ampleur globale de la valeur cible, limitant ainsi leur précision et leur généralisation. Dans cet article, nous proposons de libérer le potentiel de la régression basée sur le décodage via l'Apprentissage par Renforcement (AR). Nous formulons le processus de génération comme un Processus de Décision Markovien, en utilisant des récompenses au niveau de la séquence pour imposer une cohérence numérique globale. Des expériences approfondies sur la régression tabulaire et la régression de métriques de code démontrent que notre méthode (spécifiquement avec ReMax et GRPO) surpasse systématiquement à la fois les approches de référence au niveau des tokens les plus avancées et les têtes de régression traditionnelles, montrant la supériorité de l'introduction de signaux au niveau de la séquence. Notre analyse révèle en outre que l'AR améliore significativement l'efficacité d'échantillonnage et la précision prédictive, établissant la régression basée sur le décodage comme un paradigme robuste et précis pour la prédiction numérique à usage général.
English
Decoding-based regression, which reformulates regression as a sequence generation task, has emerged as a promising paradigm of applying large language models for numerical prediction. However, its progress is hindered by the misalignment between discrete token-level objectives (e.g., cross-entropy) and continuous numerical values. Existing approaches relying on token-level constraints often fail to capture the global magnitude of the target value, limiting their precision and generalization. In this paper, we propose to unlock the potential of decoding-based regression via Reinforcement Learning (RL). We formulate the generation process as a Markov Decision Process, utilizing sequence-level rewards to enforce global numerical coherence. Extensive experiments on tabular regression and code metric regression demonstrate that our method (specifically with ReMax and GRPO) consistently outperforms both state-of-the-art token-level baselines and traditional regression heads, showing the superiority of introducing sequence-level signals. Our analysis further reveals that RL significantly enhances sampling efficiency and predictive precision, establishing decoding-based regression as a robust and accurate paradigm for general-purpose numerical prediction.