Más allá de la supervisión a nivel de token: Desbloqueando el potencial de la regresión basada en decodificación mediante aprendizaje por refuerzo
Beyond Token-level Supervision: Unlocking the Potential of Decoding-based Regression via Reinforcement Learning
December 6, 2025
Autores: Ming Chen, Sheng Tang, Rong-Xi Tan, Ziniu Li, Jiacheng Chen, Ke Xue, Chao Qian
cs.AI
Resumen
La regresión basada en decodificación, que reformula la regresión como una tarea de generación de secuencias, ha surgido como un paradigma prometedor para aplicar modelos de lenguaje grandes a la predicción numérica. Sin embargo, su progreso se ve obstaculizado por la desalineación entre los objetivos discretos a nivel de token (por ejemplo, entropía cruzada) y los valores numéricos continuos. Los enfoques existentes que dependen de restricciones a nivel de token a menudo no logran capturar la magnitud global del valor objetivo, limitando su precisión y generalización. En este artículo, proponemos desbloquear el potencial de la regresión basada en decodificación mediante el Aprendizaje por Refuerzo (AR). Formulamos el proceso de generación como un Proceso de Decisión de Markov, utilizando recompensas a nivel de secuencia para imponer coherencia numérica global. Experimentos exhaustivos en regresión tabular y regresión de métricas de código demuestran que nuestro método (específicamente con ReMax y GRPO) supera consistentemente tanto a los métodos de referencia a nivel de token más avanzados como a los cabezales de regresión tradicionales, mostrando la superioridad de introducir señales a nivel de secuencia. Nuestro análisis revela además que el AR mejora significativamente la eficiencia del muestreo y la precisión predictiva, estableciendo la regresión basada en decodificación como un paradigma robusto y preciso para la predicción numérica de propósito general.
English
Decoding-based regression, which reformulates regression as a sequence generation task, has emerged as a promising paradigm of applying large language models for numerical prediction. However, its progress is hindered by the misalignment between discrete token-level objectives (e.g., cross-entropy) and continuous numerical values. Existing approaches relying on token-level constraints often fail to capture the global magnitude of the target value, limiting their precision and generalization. In this paper, we propose to unlock the potential of decoding-based regression via Reinforcement Learning (RL). We formulate the generation process as a Markov Decision Process, utilizing sequence-level rewards to enforce global numerical coherence. Extensive experiments on tabular regression and code metric regression demonstrate that our method (specifically with ReMax and GRPO) consistently outperforms both state-of-the-art token-level baselines and traditional regression heads, showing the superiority of introducing sequence-level signals. Our analysis further reveals that RL significantly enhances sampling efficiency and predictive precision, establishing decoding-based regression as a robust and accurate paradigm for general-purpose numerical prediction.