Seq vs Seq: Открытый набор парных кодировщиков и декодировщиков
Seq vs Seq: An Open Suite of Paired Encoders and Decoders
July 15, 2025
Авторы: Orion Weller, Kathryn Ricci, Marc Marone, Antoine Chaffin, Dawn Lawrie, Benjamin Van Durme
cs.AI
Аннотация
Сообщество, работающее с большими языковыми моделями (LLM), почти исключительно сосредоточено на декодерных моделях, поскольку их проще использовать для генерации текста. Однако значительная часть сообщества по-прежнему применяет модели, основанные только на энкодерах, для таких задач, как классификация или поиск. Предыдущие исследования пытались сравнить эти архитектуры, но были вынуждены проводить сравнения между моделями с разным количеством параметров, методами обучения и наборами данных. Мы представляем набор моделей SOTA open-data Ettin: парные модели, основанные только на энкодерах и только на декодерах, с количеством параметров от 17 миллионов до 1 миллиарда, обученные на до 2 триллионов токенов. Использование одного и того же подхода для моделей, основанных только на энкодерах и только на декодерах, позволяет достичь SOTA результатов в обеих категориях для соответствующих размеров, превосходя ModernBERT в качестве энкодера и Llama 3.2 и SmolLM2 в качестве декодеров. Как и в предыдущих работах, мы обнаруживаем, что модели, основанные только на энкодерах, превосходно справляются с задачами классификации и поиска, в то время как декодеры лучше подходят для генеративных задач. Однако мы показываем, что адаптация декодерной модели к задачам энкодера (и наоборот) путем продолжения обучения уступает использованию только обратной цели (например, энкодер на 400 миллионов параметров превосходит декодер на 1 миллиард на MNLI, и наоборот для генеративных задач). Мы открываем исходные коды всех материалов этого исследования, включая данные для обучения, порядок обучения, разделенный по контрольным точкам, и более 200 контрольных точек, чтобы позволить будущим исследованиям анализировать или расширять все аспекты обучения.
English
The large language model (LLM) community focuses almost exclusively on
decoder-only language models, since they are easier to use for text generation.
However, a large subset of the community still uses encoder-only models for
tasks such as classification or retrieval. Previous work has attempted to
compare these architectures, but is forced to make comparisons with models that
have different numbers of parameters, training techniques, and datasets. We
introduce the SOTA open-data Ettin suite of models: paired encoder-only and
decoder-only models ranging from 17 million parameters to 1 billion, trained on
up to 2 trillion tokens. Using the same recipe for both encoder-only and
decoder-only models produces SOTA recipes in both categories for their
respective sizes, beating ModernBERT as an encoder and Llama 3.2 and SmolLM2 as
decoders. Like previous work, we find that encoder-only models excel at
classification and retrieval tasks while decoders excel at generative tasks.
However, we show that adapting a decoder model to encoder tasks (and vice
versa) through continued training is subpar compared to using only the reverse
objective (i.e. a 400M encoder outperforms a 1B decoder on MNLI, and vice versa
for generative tasks). We open-source all artifacts of this study including
training data, training order segmented by checkpoint, and 200+ checkpoints to
allow future work to analyze or extend all aspects of training.