Многотокенное предсказание требует использования регистров.

Аннотация

Прогнозирование нескольких токенов стало перспективным подходом для улучшения предварительного обучения языковых моделей, однако его преимущества не всегда распространяются на другие задачи, такие как тонкая настройка. В данной статье мы предлагаем MuToR — простой и эффективный метод прогнозирования нескольких токенов, который встраивает обучаемые регистровые токены во входную последовательность, каждый из которых отвечает за предсказание будущих целей. По сравнению с существующими методами, MuToR обладает несколькими ключевыми преимуществами: он вводит лишь незначительное количество дополнительных параметров, не требует изменений архитектуры — обеспечивая совместимость с готовыми предобученными языковыми моделями — и остается согласованным с целью предсказания следующего токена, что делает его особенно подходящим для контролируемой тонкой настройки. Кроме того, он естественным образом поддерживает масштабируемые горизонты прогнозирования. Мы демонстрируем эффективность и универсальность MuToR в различных сценариях использования, включая контролируемую тонкую настройку, параметрически эффективную тонкую настройку (PEFT) и предварительное обучение, на сложных генеративных задачах в областях языка и зрения. Наш код будет доступен по адресу: https://github.com/nasosger/MuToR.

English

Multi-token prediction has emerged as a promising objective for improving language model pretraining, but its benefits have not consistently generalized to other settings such as fine-tuning. In this paper, we propose MuToR, a simple and effective approach to multi-token prediction that interleaves learnable register tokens into the input sequence, each tasked with predicting future targets. Compared to existing methods, MuToR offers several key advantages: it introduces only a negligible number of additional parameters, requires no architectural changes--ensuring compatibility with off-the-shelf pretrained language models--and remains aligned with the next-token pretraining objective, making it especially well-suited for supervised fine-tuning. Moreover, it naturally supports scalable prediction horizons. We demonstrate the effectiveness and versatility of MuToR across a range of use cases, including supervised fine-tuning, parameter-efficient fine-tuning (PEFT), and pretraining, on challenging generative tasks in both language and vision domains. Our code will be available at: https://github.com/nasosger/MuToR.

Многотокенное предсказание требует использования регистров.

Multi-Token Prediction Needs Registers

Аннотация

Summary

Support

Support