ChatPaper.aiChatPaper

За пределами поточечного контроля: раскрытие потенциала регрессии на основе декодирования с помощью обучения с подкреплением

Beyond Token-level Supervision: Unlocking the Potential of Decoding-based Regression via Reinforcement Learning

December 6, 2025
Авторы: Ming Chen, Sheng Tang, Rong-Xi Tan, Ziniu Li, Jiacheng Chen, Ke Xue, Chao Qian
cs.AI

Аннотация

Регрессия на основе декодирования, которая переформулирует задачу регрессии как задачу генерации последовательностей, появилась как перспективная парадигма применения больших языковых моделей для численного прогнозирования. Однако её прогресс сдерживается несоответствием между дискретными поточковыми целевыми функциями (например, перекрёстной энтропией) и непрерывными численными значениями. Существующие подходы, опирающиеся на поточковые ограничения, часто не способны уловить глобальную величину целевого значения, что ограничивает их точность и способность к обобщению. В данной статье мы предлагаем раскрыть потенциал регрессии на основе декодирования с помощью обучения с подкреплением. Мы формулируем процесс генерации как марковский процесс принятия решений, используя вознаграждения на уровне последовательности для обеспечения глобальной численной согласованности. Многочисленные эксперименты по табличной регрессии и регрессии метрик кода демонстрируют, что наш метод (в частности, с ReMax и GRPO) стабильно превосходит как передовые поточковые базовые методы, так и традиционные регрессионные головки, показывая превосходство введения сигналов на уровне последовательности. Наш анализ дополнительно раскрывает, что обучение с подкреплением значительно повышает эффективность выборки и прогнозную точность, утверждая регрессию на основе декодирования как надёжную и точную парадигму для универсального численного прогнозирования.
English
Decoding-based regression, which reformulates regression as a sequence generation task, has emerged as a promising paradigm of applying large language models for numerical prediction. However, its progress is hindered by the misalignment between discrete token-level objectives (e.g., cross-entropy) and continuous numerical values. Existing approaches relying on token-level constraints often fail to capture the global magnitude of the target value, limiting their precision and generalization. In this paper, we propose to unlock the potential of decoding-based regression via Reinforcement Learning (RL). We formulate the generation process as a Markov Decision Process, utilizing sequence-level rewards to enforce global numerical coherence. Extensive experiments on tabular regression and code metric regression demonstrate that our method (specifically with ReMax and GRPO) consistently outperforms both state-of-the-art token-level baselines and traditional regression heads, showing the superiority of introducing sequence-level signals. Our analysis further reveals that RL significantly enhances sampling efficiency and predictive precision, establishing decoding-based regression as a robust and accurate paradigm for general-purpose numerical prediction.
PDF62December 10, 2025