Модель оценки длины: Масштабируемое предобучение для моделирования длины на уровне токенов

Аннотация

Токен служит фундаментальной единицей вычислений в современных авторегрессионных моделях, а длина генерации напрямую влияет как на стоимость вывода, так и на качество рассуждений. Несмотря на важность этого аспекта, существующие подходы не имеют детального моделирования длины, работая в основном на грубом уровне последовательности. Мы представляем Модель Ценности Длины (LenVM) — токен-уровневую структуру, которая моделирует оставшуюся длину генерации. Формулируя моделирование длины как задачу оценки ценности и назначая постоянное отрицательное вознаграждение за каждый сгенерированный токен, LenVM предсказывает ограниченный дисконтированный возврат, служащий монотонным прокси для оставшегося горизонта генерации. Такая формулировка обеспечивает надзор, не требующий аннотаций, плотный, несмещенный и масштабируемый. Эксперименты на ЯМ и ВЯМ демонстрируют, что LenVM обеспечивает высокоэффективный сигнал во время вывода. В задаче точного соответствия длины LIFEBench применение LenVM к модели на 7B улучшает показатель длины с 30,9 до 64,8, что значительно превосходит передовые закрытые модели. Кроме того, LenVM обеспечивает непрерывный контроль над балансом между производительностью и эффективностью. На GSM8K при бюджете в 200 токенов LenVM сохраняет точность 63% по сравнению с 6% у базового метода с токенным бюджетом. Она также точно предсказывает общую длину генерации с границы промпта. Наконец, токен-уровневые значения LenVM предлагают интерпретируемый взгляд на динамику генерации, показывая, как конкретные токены смещают рассуждения в сторону более коротких или длинных режимов. Результаты демонстрируют, что LenVM поддерживает широкий спектр приложений и что длину токенов можно эффективно моделировать как токен-уровневый сигнал ценности, подчеркивая потенциал LenVM в качестве общей структуры для моделирования длины и специфического сигнала ценности длины, который может поддерживать будущее обучение с подкреплением. Код доступен по адресу https://github.com/eric-ai-lab/Length-Value-Model.

English

Token serves as the fundamental unit of computation in modern autoregressive models, and generation length directly influences both inference cost and reasoning performance. Despite its importance, existing approaches lack fine-grained length modeling, operating primarily at the coarse-grained sequence level. We introduce the Length Value Model (LenVM), a token-level framework that models the remaining generation length. By formulating length modeling as a value estimation problem and assigning a constant negative reward to each generated token, LenVM predicts a bounded, discounted return that serves as a monotone proxy for the remaining generation horizon. This formulation yields supervision that is annotation-free, dense, unbiased, and scalable. Experiments on LLMs and VLMs demonstrate LenVM provides a highly effective signal at inference time. On the LIFEBench exact length matching task, applying LenVM to a 7B model improves the length score from 30.9 to 64.8, significantly outperforming frontier closed-source models. Furthermore, LenVM enables continuous control over the trade off between performance and efficiency. On GSM8K at a budget of 200 tokens, LenVM maintains 63% accuracy compared to 6 percent for token budget baseline. It also accurately predicts total generation length from the prompt boundary. Finally, LenVM's token-level values offer an interpretable view of generation dynamics, revealing how specific tokens shift reasoning toward shorter or longer regimes. Results demonstrate that LenVM supports a broad range of applications and token length can be effectively modeled as a token-level value signal, highlighting the potential of LenVM as a general framework for length modeling and as a length-specific value signal that could support future RL training. Code is available at https://github.com/eric-ai-lab/Length-Value-Model.

Модель оценки длины: Масштабируемое предобучение для моделирования длины на уровне токенов

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Аннотация

Support