Modelo de Valor de Longitud: Preentrenamiento Escalable de Valor para el Modelado de Longitud a Nivel de Token
Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling
April 29, 2026
Autores: Zhen Zhang, Changyi Yang, Zijie Xia, Zhen Yang, Chengzhi Liu, Zhaotiao Weng, Yepeng Liu, Haobo Chen, Jin Pan, Chenyang Zhao, Yuheng Bu, Alkesh Patel, Zhe Gan, Xin Eric Wang
cs.AI
Resumen
El token sirve como la unidad fundamental de computación en los modelos autorregresivos modernos, y la longitud de generación influye directamente tanto en el coste de inferencia como en el rendimiento del razonamiento. A pesar de su importancia, los enfoques existentes carecen de un modelado fino de la longitud, operando principalmente a nivel de secuencia, de granularidad gruesa. Presentamos el Modelo de Valor de Longitud (LenVM), un marco a nivel de token que modela la longitud restante de generación. Al formular el modelado de longitud como un problema de estimación de valor y asignar una recompensa negativa constante a cada token generado, LenVM predice un retorno descontado y acotado que sirve como proxy monótono del horizonte restante de generación. Esta formulación produce una supervisión que no requiere anotación, es densa, imparcial y escalable. Los experimentos con LLMs y VLMs demuestran que LenVM proporciona una señal altamente efectiva en el momento de la inferencia. En la tarea de coincidencia exacta de longitud LIFEBench, la aplicación de LenVM a un modelo de 7B mejora la puntuación de longitud de 30.9 a 64.8, superando significativamente a modelos propietarios de vanguardia. Además, LenVM permite un control continuo del equilibrio entre rendimiento y eficiencia. En GSM8K con un presupuesto de 200 tokens, LenVM mantiene un 63% de precisión en comparación con el 6% de la línea base con presupuesto de tokens. También predice con precisión la longitud total de generación desde el límite del *prompt*. Finalmente, los valores a nivel de token de LenVM ofrecen una visión interpretable de la dinámica de generación, revelando cómo tokens específicos desplazan el razonamiento hacia regímenes más cortos o largos. Los resultados demuestran que LenVM admite una amplia gama de aplicaciones y que la longitud en tokens puede modelarse efectivamente como una señal de valor a nivel de token, destacando el potencial de LenVM como marco general para el modelado de longitud y como una señal de valor específica de longitud que podría apoyar futuros entrenamientos por refuerzo. El código está disponible en https://github.com/eric-ai-lab/Length-Value-Model.
English
Token serves as the fundamental unit of computation in modern autoregressive models, and generation length directly influences both inference cost and reasoning performance. Despite its importance, existing approaches lack fine-grained length modeling, operating primarily at the coarse-grained sequence level. We introduce the Length Value Model (LenVM), a token-level framework that models the remaining generation length. By formulating length modeling as a value estimation problem and assigning a constant negative reward to each generated token, LenVM predicts a bounded, discounted return that serves as a monotone proxy for the remaining generation horizon. This formulation yields supervision that is annotation-free, dense, unbiased, and scalable. Experiments on LLMs and VLMs demonstrate LenVM provides a highly effective signal at inference time. On the LIFEBench exact length matching task, applying LenVM to a 7B model improves the length score from 30.9 to 64.8, significantly outperforming frontier closed-source models. Furthermore, LenVM enables continuous control over the trade off between performance and efficiency. On GSM8K at a budget of 200 tokens, LenVM maintains 63% accuracy compared to 6 percent for token budget baseline. It also accurately predicts total generation length from the prompt boundary. Finally, LenVM's token-level values offer an interpretable view of generation dynamics, revealing how specific tokens shift reasoning toward shorter or longer regimes. Results demonstrate that LenVM supports a broad range of applications and token length can be effectively modeled as a token-level value signal, highlighting the potential of LenVM as a general framework for length modeling and as a length-specific value signal that could support future RL training. Code is available at https://github.com/eric-ai-lab/Length-Value-Model.