ChatPaper.aiChatPaper

Oltre la supervisione a livello di token: sbloccare il potenziale della regressione basata sul decoding tramite apprendimento per rinforzo

Beyond Token-level Supervision: Unlocking the Potential of Decoding-based Regression via Reinforcement Learning

December 6, 2025
Autori: Ming Chen, Sheng Tang, Rong-Xi Tan, Ziniu Li, Jiacheng Chen, Ke Xue, Chao Qian
cs.AI

Abstract

La regressione basata su decodifica, che riformula la regressione come un compito di generazione di sequenze, è emersa come un paradigma promettente per applicare modelli linguistici di grandi dimensioni alla previsione numerica. Tuttavia, il suo progresso è ostacolato dal disallineamento tra obiettivi discreti a livello di token (ad esempio, l'entropia incrociata) e valori numerici continui. Gli approcci esistenti che si basano su vincoli a livello di token spesso non riescono a catturare la magnitudine globale del valore target, limitandone precisione e generalizzazione. In questo articolo, proponiamo di sbloccare il potenziale della regressione basata su decodifica tramite Apprendimento per Rinforzo (RL). Formuliamo il processo di generazione come un Processo Decisionale di Markov, utilizzando ricompense a livello di sequenza per imporre una coerenza numerica globale. Esperimenti estensivi su regressione tabellare e regressione di metriche del codice dimostrano che il nostro metodo (in particolare con ReMax e GRPO) supera costantemente sia i benchmark state-of-the-art a livello di token che le tradizionali teste di regressione, mostrando la superiorità dell'introduzione di segnali a livello di sequenza. La nostra analisi rivela inoltre che l'RL migliora significativamente l'efficienza di campionamento e la precisione predittiva, stabilendo la regressione basata su decodifica come un paradigma robusto e accurato per la previsione numerica generica.
English
Decoding-based regression, which reformulates regression as a sequence generation task, has emerged as a promising paradigm of applying large language models for numerical prediction. However, its progress is hindered by the misalignment between discrete token-level objectives (e.g., cross-entropy) and continuous numerical values. Existing approaches relying on token-level constraints often fail to capture the global magnitude of the target value, limiting their precision and generalization. In this paper, we propose to unlock the potential of decoding-based regression via Reinforcement Learning (RL). We formulate the generation process as a Markov Decision Process, utilizing sequence-level rewards to enforce global numerical coherence. Extensive experiments on tabular regression and code metric regression demonstrate that our method (specifically with ReMax and GRPO) consistently outperforms both state-of-the-art token-level baselines and traditional regression heads, showing the superiority of introducing sequence-level signals. Our analysis further reveals that RL significantly enhances sampling efficiency and predictive precision, establishing decoding-based regression as a robust and accurate paradigm for general-purpose numerical prediction.
PDF62December 10, 2025