ChatPaper.aiChatPaper

토큰 수준 감독을 넘어서: 강화 학습을 통한 디코딩 기반 회귀의 잠재력 개방

Beyond Token-level Supervision: Unlocking the Potential of Decoding-based Regression via Reinforcement Learning

December 6, 2025
저자: Ming Chen, Sheng Tang, Rong-Xi Tan, Ziniu Li, Jiacheng Chen, Ke Xue, Chao Qian
cs.AI

초록

디코딩 기반 회귀는 회귀 문제를 시퀀스 생성 작업으로 재구성하여 대규모 언어 모델을 수치 예측에 적용하는 유망한 패러다임으로 부상했습니다. 그러나 이 방법의 발전은 이산적인 토큰 수준의 목적 함수(예: 교차 엔트로피)와 연속적인 수치 값 사이의 불일치로 인해 저해되고 있습니다. 토큰 수준 제약에 의존하는 기존 접근법은 종종 목표 값의 전반적인 크기(global magnitude)를 제대로 포착하지 못해 정밀도와 일반화 성능이 제한됩니다. 본 논문에서는 강화 학습을 통해 디코딩 기반 회귀의 잠재력을 극대화하고자 제안합니다. 생성 과정을 마르코프 결정 과정으로 공식화하고, 시퀀스 수준 보상을 활용하여 전역적인 수치 일관성을 강화합니다. 표 형태 데이터 회귀 및 코드 메트릭 회귀에 대한 광범위한 실험을 통해, 우리의 방법(특히 ReMax 및 GRPO 사용 시)이 최첨단 토큰 수준 베이스라인과 기존 회귀 헤드 모두를 꾸준히 능가함을 입증하여 시퀀스 수준 신호 도입의 우수성을 보여줍니다. 우리의 분석은 더 나아가 강화 학습이 샘플링 효율성과 예측 정밀도를 현저히 향상시켜, 디코딩 기반 회귀를 일반적인 수치 예측을 위한 강력하고 정확한 패러다임으로 정립함을 보여줍니다.
English
Decoding-based regression, which reformulates regression as a sequence generation task, has emerged as a promising paradigm of applying large language models for numerical prediction. However, its progress is hindered by the misalignment between discrete token-level objectives (e.g., cross-entropy) and continuous numerical values. Existing approaches relying on token-level constraints often fail to capture the global magnitude of the target value, limiting their precision and generalization. In this paper, we propose to unlock the potential of decoding-based regression via Reinforcement Learning (RL). We formulate the generation process as a Markov Decision Process, utilizing sequence-level rewards to enforce global numerical coherence. Extensive experiments on tabular regression and code metric regression demonstrate that our method (specifically with ReMax and GRPO) consistently outperforms both state-of-the-art token-level baselines and traditional regression heads, showing the superiority of introducing sequence-level signals. Our analysis further reveals that RL significantly enhances sampling efficiency and predictive precision, establishing decoding-based regression as a robust and accurate paradigm for general-purpose numerical prediction.
PDF62December 10, 2025