Além da Supervisão a Nível de Token: Desbloqueando o Potencial da Regressão Baseada em Decodificação via Aprendizagem por Reforço

Resumo

A regressão baseada em decodificação, que reformula a regressão como uma tarefa de geração de sequências, emergiu como um paradigma promissor para a aplicação de grandes modelos de linguagem na previsão numérica. No entanto, seu progresso é dificultado pelo desalinhamento entre objetivos discretos a nível de token (por exemplo, entropia cruzada) e valores numéricos contínuos. As abordagens existentes que dependem de restrições a nível de token frequentemente falham em capturar a magnitude global do valor alvo, limitando sua precisão e generalização. Neste artigo, propomos desbloquear o potencial da regressão baseada em decodificação por meio de Aprendizado por Reforço (RL). Formulamos o processo de geração como um Processo de Decisão de Markov, utilizando recompensas a nível de sequência para impor coerência numérica global. Extensos experimentos em regressão tabular e regressão de métricas de código demonstram que nosso método (especificamente com ReMax e GRPO) supera consistentemente tanto as linhas de base state-of-the-art a nível de token quanto os cabeçalhos de regressão tradicionais, mostrando a superioridade da introdução de sinais a nível de sequência. Nossa análise revela ainda que o RL melhora significativamente a eficiência de amostragem e a precisão preditiva, estabelecendo a regressão baseada em decodificação como um paradigma robusto e preciso para previsão numérica de propósito geral.

English

Decoding-based regression, which reformulates regression as a sequence generation task, has emerged as a promising paradigm of applying large language models for numerical prediction. However, its progress is hindered by the misalignment between discrete token-level objectives (e.g., cross-entropy) and continuous numerical values. Existing approaches relying on token-level constraints often fail to capture the global magnitude of the target value, limiting their precision and generalization. In this paper, we propose to unlock the potential of decoding-based regression via Reinforcement Learning (RL). We formulate the generation process as a Markov Decision Process, utilizing sequence-level rewards to enforce global numerical coherence. Extensive experiments on tabular regression and code metric regression demonstrate that our method (specifically with ReMax and GRPO) consistently outperforms both state-of-the-art token-level baselines and traditional regression heads, showing the superiority of introducing sequence-level signals. Our analysis further reveals that RL significantly enhances sampling efficiency and predictive precision, establishing decoding-based regression as a robust and accurate paradigm for general-purpose numerical prediction.

Além da Supervisão a Nível de Token: Desbloqueando o Potencial da Regressão Baseada em Decodificação via Aprendizagem por Reforço

Beyond Token-level Supervision: Unlocking the Potential of Decoding-based Regression via Reinforcement Learning

Resumo

Support