Jenseits der Token-Ebene: Das Potenzial dekodierungsbasierter Regression durch Reinforcement Learning erschließen
Beyond Token-level Supervision: Unlocking the Potential of Decoding-based Regression via Reinforcement Learning
December 6, 2025
papers.authors: Ming Chen, Sheng Tang, Rong-Xi Tan, Ziniu Li, Jiacheng Chen, Ke Xue, Chao Qian
cs.AI
papers.abstract
Decodierungsbasierte Regression, die Regression als Sequenzgenerierungsaufgabe neu formuliert, hat sich als vielversprechendes Paradigma für den Einsatz großer Sprachmodelle zur numerischen Vorhersage etabliert. Ihr Fortschritt wird jedoch durch die mangelnde Übereinstimmung zwischen diskreten Token-level-Zielen (z.B. Kreuzentropie) und kontinuierlichen numerischen Werten behindert. Bestehende Ansätze, die auf Token-level-Einschränkungen basieren, erfassen oft die globale Größenordnung des Zielwerts nicht, was ihre Präzision und Generalisierungsfähigkeit einschränkt. In diesem Artikel schlagen wir vor, das Potenzial der decodierungsbasierten Regression durch Reinforcement Learning (RL) zu erschließen. Wir formulieren den Generierungsprozess als Markov-Entscheidungsprozess und nutzen Sequenz-level-Belohnungen, um globale numerische Kohärenz zu erzwingen. Umfangreiche Experimente zur tabellarischen Regression und Code-Metriken-Regression zeigen, dass unsere Methode (insbesondere mit ReMax und GRPO) konsistent sowohl state-of-the-art Token-level-Baselines als auch traditionelle Regressionsköpfe übertrifft, was die Überlegenheit der Einführung von Sequenz-level-Signalen demonstriert. Unsere Analyse zeigt weiterhin, dass RL die Stichprobeneffizienz und Vorhersagegenauigkeit signifikant verbessert und damit decodierungsbasierte Regression als ein robustes und präzises Paradigma für allgemeine numerische Vorhersagen etabliert.
English
Decoding-based regression, which reformulates regression as a sequence generation task, has emerged as a promising paradigm of applying large language models for numerical prediction. However, its progress is hindered by the misalignment between discrete token-level objectives (e.g., cross-entropy) and continuous numerical values. Existing approaches relying on token-level constraints often fail to capture the global magnitude of the target value, limiting their precision and generalization. In this paper, we propose to unlock the potential of decoding-based regression via Reinforcement Learning (RL). We formulate the generation process as a Markov Decision Process, utilizing sequence-level rewards to enforce global numerical coherence. Extensive experiments on tabular regression and code metric regression demonstrate that our method (specifically with ReMax and GRPO) consistently outperforms both state-of-the-art token-level baselines and traditional regression heads, showing the superiority of introducing sequence-level signals. Our analysis further reveals that RL significantly enhances sampling efficiency and predictive precision, establishing decoding-based regression as a robust and accurate paradigm for general-purpose numerical prediction.