ChatPaper.aiChatPaper

Modelo de Valor de Comprimento: Pré-treinamento Escalável de Valor para Modelagem de Comprimento em Nível de Token

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

April 29, 2026
Autores: Zhen Zhang, Changyi Yang, Zijie Xia, Zhen Yang, Chengzhi Liu, Zhaotiao Weng, Yepeng Liu, Haobo Chen, Jin Pan, Chenyang Zhao, Yuheng Bu, Alkesh Patel, Zhe Gan, Xin Eric Wang
cs.AI

Resumo

O token serve como a unidade fundamental de computação em modelos autorregressivos modernos, e o comprimento da geração influencia diretamente tanto o custo de inferência quanto o desempenho do raciocínio. Apesar de sua importância, as abordagens existentes carecem de modelagem de comprimento em granularidade fina, operando principalmente ao nível grosseiro de sequência. Introduzimos o Modelo de Valor de Comprimento (LenVM), uma estrutura em nível de token que modela o comprimento restante da geração. Ao formular a modelagem de comprimento como um problema de estimativa de valor e atribuir uma recompensa negativa constante a cada token gerado, o LenVM prevê um retorno descontado e limitado que serve como um proxy monotônico para o horizonte de geração restante. Esta formulação produz uma supervisão que é livre de anotações, densa, não tendenciosa e escalável. Experimentos em LLMs e VLMs demonstram que o LenVM fornece um sinal altamente eficaz no tempo de inferência. Na tarefa de correspondência exata de comprimento do LIFEBench, a aplicação do LenVM a um modelo de 7B melhora a pontuação de comprimento de 30,9 para 64,8, superando significativamente modelos proprietários de fronteira. Além disso, o LenVM permite o controle contínuo do compromisso entre desempenho e eficiência. No GSM8K com um orçamento de 200 tokens, o LenVM mantém 63% de precisão em comparação com 6% da linha de base de orçamento de tokens. Ele também prevê com precisão o comprimento total da geração a partir do limite do prompt. Finalmente, os valores em nível de token do LenVM oferecem uma visão interpretável da dinâmica de geração, revelando como tokens específicos deslocam o raciocínio para regimes mais curtos ou mais longos. Os resultados demonstram que o LenVM suporta uma ampla gama de aplicações e que o comprimento do token pode ser efetivamente modelado como um sinal de valor em nível de token, destacando o potencial do LenVM como uma estrutura geral para modelagem de comprimento e como um sinal de valor específico para comprimento que poderia apoiar futuros treinamentos de RL. O código está disponível em https://github.com/eric-ai-lab/Length-Value-Model.
English
Token serves as the fundamental unit of computation in modern autoregressive models, and generation length directly influences both inference cost and reasoning performance. Despite its importance, existing approaches lack fine-grained length modeling, operating primarily at the coarse-grained sequence level. We introduce the Length Value Model (LenVM), a token-level framework that models the remaining generation length. By formulating length modeling as a value estimation problem and assigning a constant negative reward to each generated token, LenVM predicts a bounded, discounted return that serves as a monotone proxy for the remaining generation horizon. This formulation yields supervision that is annotation-free, dense, unbiased, and scalable. Experiments on LLMs and VLMs demonstrate LenVM provides a highly effective signal at inference time. On the LIFEBench exact length matching task, applying LenVM to a 7B model improves the length score from 30.9 to 64.8, significantly outperforming frontier closed-source models. Furthermore, LenVM enables continuous control over the trade off between performance and efficiency. On GSM8K at a budget of 200 tokens, LenVM maintains 63% accuracy compared to 6 percent for token budget baseline. It also accurately predicts total generation length from the prompt boundary. Finally, LenVM's token-level values offer an interpretable view of generation dynamics, revealing how specific tokens shift reasoning toward shorter or longer regimes. Results demonstrate that LenVM supports a broad range of applications and token length can be effectively modeled as a token-level value signal, highlighting the potential of LenVM as a general framework for length modeling and as a length-specific value signal that could support future RL training. Code is available at https://github.com/eric-ai-lab/Length-Value-Model.
PDF161May 2, 2026