Lengtewaardemodel: Schaalbare waardevoorpretraining voor token-niveau lengtemodellering

Samenvatting

Tokens vormen de fundamentele rekeneenheid in moderne autoregressieve modellen, en de generatielengte beïnvloedt direct zowel de inferentiekosten als de prestaties van het redeneervermogen. Ondanks dit belang ontbreekt het bestaande benaderingen aan fijnmazige lengtemodellering, omdat ze voornamelijk op het grove sequentieniveau opereren. Wij introduceren het Lengte Waarde Model (LenVM), een token-level raamwerk dat de resterende generatielengte modelleert. Door lengtemodellering te formuleren als een waardeschattingsprobleem en aan elk gegenereerd token een constante negatieve beloning toe te kennen, voorspelt LenVM een begrenst, verdisconteerd rendement dat dient als een monotoon proxy voor de resterende generatiehorizon. Deze formulering resulteert in supervisie die annotatievrij, dicht, onbevooroordeeld en schaalbaar is. Experimenten met LLM's en VLM's tonen aan dat LenVM een zeer effectief signaal biedt tijdens inferentie. Voor de LIFEBench-taak voor exacte lengte-afstemming verbetert het toepassen van LenVM op een 7B-model de lengtescore van 30,9 naar 64,8, wat frontier closed-source modellen significant overtreft. Bovendien stelt LenVM continue controle mogelijk over de afweging tussen prestaties en efficiëntie. Op GSM8K met een budget van 200 tokens behoudt LenVM een nauwkeurigheid van 63% tegenover 6 procent voor de token budget-basislijn. Het voorspelt ook nauwkeurig de totale generatielengte vanaf de promptgrens. Ten slotte bieden de token-level waarden van LenVM een interpreteerbaar beeld van de generatiedynamiek, en onthullen ze hoe specifieke tokens het redeneren verschuiven naar kortere of langere regimes. Resultaten tonen aan dat LenVM een breed scala aan toepassingen ondersteunt en dat tokenlengte effectief kan worden gemodelleerd als een token-level waarde-signaal, wat het potentieel van LenVM benadrukt als een algemeen raamwerk voor lengtemodellering en als een lengte-specifiek waarde-signaal dat toekomstige RL-training zou kunnen ondersteunen. Code is beschikbaar op https://github.com/eric-ai-lab/Length-Value-Model.

English

Token serves as the fundamental unit of computation in modern autoregressive models, and generation length directly influences both inference cost and reasoning performance. Despite its importance, existing approaches lack fine-grained length modeling, operating primarily at the coarse-grained sequence level. We introduce the Length Value Model (LenVM), a token-level framework that models the remaining generation length. By formulating length modeling as a value estimation problem and assigning a constant negative reward to each generated token, LenVM predicts a bounded, discounted return that serves as a monotone proxy for the remaining generation horizon. This formulation yields supervision that is annotation-free, dense, unbiased, and scalable. Experiments on LLMs and VLMs demonstrate LenVM provides a highly effective signal at inference time. On the LIFEBench exact length matching task, applying LenVM to a 7B model improves the length score from 30.9 to 64.8, significantly outperforming frontier closed-source models. Furthermore, LenVM enables continuous control over the trade off between performance and efficiency. On GSM8K at a budget of 200 tokens, LenVM maintains 63% accuracy compared to 6 percent for token budget baseline. It also accurately predicts total generation length from the prompt boundary. Finally, LenVM's token-level values offer an interpretable view of generation dynamics, revealing how specific tokens shift reasoning toward shorter or longer regimes. Results demonstrate that LenVM supports a broad range of applications and token length can be effectively modeled as a token-level value signal, highlighting the potential of LenVM as a general framework for length modeling and as a length-specific value signal that could support future RL training. Code is available at https://github.com/eric-ai-lab/Length-Value-Model.

Lengtewaardemodel: Schaalbare waardevoorpretraining voor token-niveau lengtemodellering

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Samenvatting

Support