ChatPaper.aiChatPaper

Modèle de Valeur de Longueur : Prétraitement de Valeur Évolutif pour la Modélisation de Longueur au Niveau des Tokens

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

April 29, 2026
Auteurs: Zhen Zhang, Changyi Yang, Zijie Xia, Zhen Yang, Chengzhi Liu, Zhaotiao Weng, Yepeng Liu, Haobo Chen, Jin Pan, Chenyang Zhao, Yuheng Bu, Alkesh Patel, Zhe Gan, Xin Eric Wang
cs.AI

Résumé

Le token constitue l'unité fondamentale de calcul dans les modèles autorégressifs modernes, et la longueur de génération influence directement le coût d'inférence et les performances de raisonnement. Malgré son importance, les approches existantes manquent de modélisation fine de la longueur, opérant principalement au niveau séquentiel grossier. Nous présentons le Modèle à Valeur de Longueur (LenVM), un framework au niveau token qui modélise la longueur de génération restante. En formulant la modélisation de la longueur comme un problème d'estimation de valeur et en attribuant une récompense négative constante à chaque token généré, LenVM prédit un retour actualisé borné qui sert de proxy monotone pour l'horizon de génération restant. Cette formulation produit une supervision sans annotation, dense, non biaisée et évolutive. Les expériences sur les LLM et VLM démontrent que LenVM fournit un signal très efficace au moment de l'inférence. Sur la tâche d'appariement exact de longueur LIFEBench, l'application de LenVM à un modèle de 7B améliore le score de longueur de 30,9 à 64,8, surpassant significativement les modèles propriétaires de pointe. De plus, LenVM permet un contrôle continu du compromis entre performance et efficacité. Sur GSM8K avec un budget de 200 tokens, LenVM maintient une précision de 63% contre 6% pour la ligne de base avec budget de tokens. Il prédit également avec précision la longueur totale de génération dès la limite du prompt. Enfin, les valeurs au niveau token de LenVM offrent une vue interprétable de la dynamique de génération, révélant comment des tokens spécifiques orientent le raisonnement vers des régimes plus courts ou plus longs. Les résultats démontrent que LenVM prend en charge un large éventail d'applications et que la longueur en tokens peut être efficacement modélisée comme un signal de valeur au niveau token, soulignant le potentiel de LenVM comme framework général pour la modélisation de la longueur et comme signal de valeur spécifique à la longueur pouvant soutenir un futur apprentissage par renforcement. Le code est disponible à l'adresse https://github.com/eric-ai-lab/Length-Value-Model.
English
Token serves as the fundamental unit of computation in modern autoregressive models, and generation length directly influences both inference cost and reasoning performance. Despite its importance, existing approaches lack fine-grained length modeling, operating primarily at the coarse-grained sequence level. We introduce the Length Value Model (LenVM), a token-level framework that models the remaining generation length. By formulating length modeling as a value estimation problem and assigning a constant negative reward to each generated token, LenVM predicts a bounded, discounted return that serves as a monotone proxy for the remaining generation horizon. This formulation yields supervision that is annotation-free, dense, unbiased, and scalable. Experiments on LLMs and VLMs demonstrate LenVM provides a highly effective signal at inference time. On the LIFEBench exact length matching task, applying LenVM to a 7B model improves the length score from 30.9 to 64.8, significantly outperforming frontier closed-source models. Furthermore, LenVM enables continuous control over the trade off between performance and efficiency. On GSM8K at a budget of 200 tokens, LenVM maintains 63% accuracy compared to 6 percent for token budget baseline. It also accurately predicts total generation length from the prompt boundary. Finally, LenVM's token-level values offer an interpretable view of generation dynamics, revealing how specific tokens shift reasoning toward shorter or longer regimes. Results demonstrate that LenVM supports a broad range of applications and token length can be effectively modeled as a token-level value signal, highlighting the potential of LenVM as a general framework for length modeling and as a length-specific value signal that could support future RL training. Code is available at https://github.com/eric-ai-lab/Length-Value-Model.
PDF161May 2, 2026