ChatPaper.aiChatPaper

トークンレベルを超えた監督:強化学習によるデコードベース回帰の可能性を解き放つ

Beyond Token-level Supervision: Unlocking the Potential of Decoding-based Regression via Reinforcement Learning

December 6, 2025
著者: Ming Chen, Sheng Tang, Rong-Xi Tan, Ziniu Li, Jiacheng Chen, Ke Xue, Chao Qian
cs.AI

要旨

デコードベース回帰は、回帰問題を系列生成タスクとして再定義する手法であり、大規模言語モデルを数値予測に応用する有望なパラダイムとして登場しました。しかし、離散的なトークンレベルの目的関数(例えば交差エントロピー)と連続的な数値の間の不一致が、その進展を妨げています。既存のトークンレベル制約に依存する手法は、目標値の全体的な大きさを捉えることができず、精度と汎化性能が制限されています。本論文では、強化学習(RL)を通じてデコードベース回帰の可能性を解放することを提案します。生成プロセスをマルコフ決定過程として定式化し、系列レベルの報酬を用いて全体的な数値的一貫性を強化します。表形式データ回帰とコードメトリック回帰における大規模な実験により、我々の手法(特にReMaxとGRPOを採用した場合)が、最先端のトークンレベルベースライン手法と従来の回帰ヘッドの両方を一貫して上回ることを実証し、系列レベル信号の導入の優位性を示しました。さらに分析により、強化学習がサンプリング効率と予測精度を大幅に向上させ、デコードベース回帰が汎用数値予測における堅牢で正確なパラダイムであることを確立しました。
English
Decoding-based regression, which reformulates regression as a sequence generation task, has emerged as a promising paradigm of applying large language models for numerical prediction. However, its progress is hindered by the misalignment between discrete token-level objectives (e.g., cross-entropy) and continuous numerical values. Existing approaches relying on token-level constraints often fail to capture the global magnitude of the target value, limiting their precision and generalization. In this paper, we propose to unlock the potential of decoding-based regression via Reinforcement Learning (RL). We formulate the generation process as a Markov Decision Process, utilizing sequence-level rewards to enforce global numerical coherence. Extensive experiments on tabular regression and code metric regression demonstrate that our method (specifically with ReMax and GRPO) consistently outperforms both state-of-the-art token-level baselines and traditional regression heads, showing the superiority of introducing sequence-level signals. Our analysis further reveals that RL significantly enhances sampling efficiency and predictive precision, establishing decoding-based regression as a robust and accurate paradigm for general-purpose numerical prediction.
PDF62December 10, 2025