Längenwertmodell: Skalierbare Wertevorverarbeitung für tokenbasierte Längenmodellierung

Zusammenfassung

Token stellen die grundlegende Recheneinheit in modernen autoregressiven Modellen dar, und die Generierungslänge beeinflusst direkt sowohl die Inferenzkosten als auch die Reasoning-Leistung. Trotz ihrer Bedeutung fehlt es bestehenden Ansätzen an einer feinkörnigen Längenmodellierung, da sie primär auf grobkörniger Sequenzebene operieren. Wir führen das Length Value Model (LenVM) ein, ein Framework auf Token-Ebene, das die verbleibende Generierungslänge modelliert. Indem Längenmodellierung als Wertschätzungsproblem formuliert und jedem generierten Token eine konstante negative Belohnung zugewiesen wird, sagt LenVM eine begrenzte, diskontierte Rendite voraus, die als monotoner Proxy für den verbleibenden Generierungshorizont dient. Diese Formulierung liefert eine aufsichtsfreie, dichte, verzerrungsfreie und skalierbare Supervision. Experimente mit LLMs und VLMs zeigen, dass LenVM zur Inferenzzeit ein hocheffektives Signal liefert. Bei der LIFEBench-Aufgabe zum exakten Längenabgleich verbessert die Anwendung von LenVM auf ein 7B-Modell den Längenscore von 30,9 auf 64,8 und übertrifft damit frontier Closed-Source-Modelle signifikant. Darüber hinaus ermöglicht LenVM eine kontinuierliche Steuerung des Trade-offs zwischen Leistung und Effizienz. Bei GSM8K mit einem Budget von 200 Token hält LenVM eine Genauigkeit von 63 % im Vergleich zu 6 Prozent beim Token-Budget-Baseline. Es sagt auch die totale Generierungslänge präzise an der Prompt-Grenze voraus. Schließlich bieten die token-level Werte von LenVM eine interpretierbare Sicht auf die Generierungsdynamik, indem sie zeigen, wie bestimmte Token das Reasoning in Richtung kürzerer oder längerer Regime verschieben. Die Ergebnisse demonstrieren, dass LenVM eine breite Palette von Anwendungen unterstützt und Token-Länge effektiv als token-level Wertesignal modelliert werden kann, was das Potenzial von LenVM als allgemeines Framework für Längenmodellierung und als längen-spezifisches Wertesignal unterstreicht, das zukünftiges RL-Training unterstützen könnte. Code ist verfügbar unter https://github.com/eric-ai-lab/Length-Value-Model.

English

Token serves as the fundamental unit of computation in modern autoregressive models, and generation length directly influences both inference cost and reasoning performance. Despite its importance, existing approaches lack fine-grained length modeling, operating primarily at the coarse-grained sequence level. We introduce the Length Value Model (LenVM), a token-level framework that models the remaining generation length. By formulating length modeling as a value estimation problem and assigning a constant negative reward to each generated token, LenVM predicts a bounded, discounted return that serves as a monotone proxy for the remaining generation horizon. This formulation yields supervision that is annotation-free, dense, unbiased, and scalable. Experiments on LLMs and VLMs demonstrate LenVM provides a highly effective signal at inference time. On the LIFEBench exact length matching task, applying LenVM to a 7B model improves the length score from 30.9 to 64.8, significantly outperforming frontier closed-source models. Furthermore, LenVM enables continuous control over the trade off between performance and efficiency. On GSM8K at a budget of 200 tokens, LenVM maintains 63% accuracy compared to 6 percent for token budget baseline. It also accurately predicts total generation length from the prompt boundary. Finally, LenVM's token-level values offer an interpretable view of generation dynamics, revealing how specific tokens shift reasoning toward shorter or longer regimes. Results demonstrate that LenVM supports a broad range of applications and token length can be effectively modeled as a token-level value signal, highlighting the potential of LenVM as a general framework for length modeling and as a length-specific value signal that could support future RL training. Code is available at https://github.com/eric-ai-lab/Length-Value-Model.

Längenwertmodell: Skalierbare Wertevorverarbeitung für tokenbasierte Längenmodellierung

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Zusammenfassung

Support