ChatPaper.aiChatPaper

Modello Valore Lunghezza: Pre-addestramento Scalabile del Valore per la Modellazione della Lunghezza a Livello di Token

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

April 29, 2026
Autori: Zhen Zhang, Changyi Yang, Zijie Xia, Zhen Yang, Chengzhi Liu, Zhaotiao Weng, Yepeng Liu, Haobo Chen, Jin Pan, Chenyang Zhao, Yuheng Bu, Alkesh Patel, Zhe Gan, Xin Eric Wang
cs.AI

Abstract

Il token costituisce l'unità fondamentale di calcolo nei modelli autoregressivi moderni, e la lunghezza della generazione influenza direttamente sia il costo di inferenza che le prestazioni di ragionamento. Nonostante la sua importanza, gli approcci esistenti mancano di una modellizzazione granulare della lunghezza, operando principalmente a livello di sequenza, che è più grossolano. Introduciamo il Length Value Model (LenVM), un framework a livello di token che modella la lunghezza rimanente della generazione. Formulando la modellizzazione della lunghezza come un problema di stima del valore e assegnando una ricompensa negativa costante ad ogni token generato, LenVM predice un ritorno scontato e limitato che funge da proxy monotono per l'orizzonte rimanente della generazione. Questa formulazione produce una supervisione che è priva di annotazioni, densa, imparziale e scalabile. Esperimenti su LLM e VLM dimostrano che LenVM fornisce un segnale altamente efficace durante l'inferenza. Sul task di corrispondenza esatta della lunghezza LIFEBench, l'applicazione di LenVM a un modello da 7B migliora il punteggio di lunghezza da 30.9 a 64.8, superando significativamente i modelli closed-source all'avanguardia. Inoltre, LenVM consente un controllo continuo del compromesso tra prestazioni ed efficienza. Su GSM8K con un budget di 200 token, LenVM mantiene una accuratezza del 63% rispetto al 6 percento della baseline con budget di token. Predice anche accuratamente la lunghezza totale della generazione dal confine del prompt. Infine, i valori a livello di token di LenVM offrono una visione interpretabile della dinamica di generazione, rivelando come token specifici spostino il ragionamento verso regimi più brevi o più lunghi. I risultati dimostrano che LenVM supporta un'ampia gamma di applicazioni e che la lunghezza in token può essere efficacemente modellata come un segnale di valore a livello di token, evidenziando il potenziale di LenVM come framework generale per la modellizzazione della lunghezza e come segnale di valore specifico per la lunghezza che potrebbe supportare futuri addestramenti RL. Il codice è disponibile su https://github.com/eric-ai-lab/Length-Value-Model.
English
Token serves as the fundamental unit of computation in modern autoregressive models, and generation length directly influences both inference cost and reasoning performance. Despite its importance, existing approaches lack fine-grained length modeling, operating primarily at the coarse-grained sequence level. We introduce the Length Value Model (LenVM), a token-level framework that models the remaining generation length. By formulating length modeling as a value estimation problem and assigning a constant negative reward to each generated token, LenVM predicts a bounded, discounted return that serves as a monotone proxy for the remaining generation horizon. This formulation yields supervision that is annotation-free, dense, unbiased, and scalable. Experiments on LLMs and VLMs demonstrate LenVM provides a highly effective signal at inference time. On the LIFEBench exact length matching task, applying LenVM to a 7B model improves the length score from 30.9 to 64.8, significantly outperforming frontier closed-source models. Furthermore, LenVM enables continuous control over the trade off between performance and efficiency. On GSM8K at a budget of 200 tokens, LenVM maintains 63% accuracy compared to 6 percent for token budget baseline. It also accurately predicts total generation length from the prompt boundary. Finally, LenVM's token-level values offer an interpretable view of generation dynamics, revealing how specific tokens shift reasoning toward shorter or longer regimes. Results demonstrate that LenVM supports a broad range of applications and token length can be effectively modeled as a token-level value signal, highlighting the potential of LenVM as a general framework for length modeling and as a length-specific value signal that could support future RL training. Code is available at https://github.com/eric-ai-lab/Length-Value-Model.
PDF161May 2, 2026