Seq vs Seq : Une Suite Ouverte d'Encodeurs et de Décodeurs Appariés
Seq vs Seq: An Open Suite of Paired Encoders and Decoders
July 15, 2025
papers.authors: Orion Weller, Kathryn Ricci, Marc Marone, Antoine Chaffin, Dawn Lawrie, Benjamin Van Durme
cs.AI
papers.abstract
La communauté des grands modèles de langage (LLM) se concentre presque exclusivement sur les modèles de langage à décodeur uniquement, car ils sont plus faciles à utiliser pour la génération de texte. Cependant, une grande partie de la communauté continue d'utiliser des modèles à encodeur uniquement pour des tâches telles que la classification ou la recherche. Les travaux précédents ont tenté de comparer ces architectures, mais ont été contraints de faire des comparaisons avec des modèles ayant des nombres de paramètres, des techniques d'entraînement et des jeux de données différents. Nous présentons la suite de modèles Ettin, un ensemble de données ouvertes de pointe : des modèles jumelés à encodeur uniquement et à décodeur uniquement, allant de 17 millions à 1 milliard de paramètres, entraînés sur jusqu'à 2 000 milliards de tokens. En utilisant la même recette pour les modèles à encodeur uniquement et à décodeur uniquement, nous obtenons des recettes de pointe dans les deux catégories pour leurs tailles respectives, surpassant ModernBERT en tant qu'encodeur et Llama 3.2 et SmolLM2 en tant que décodeurs. Comme les travaux précédents, nous constatons que les modèles à encodeur uniquement excellent dans les tâches de classification et de recherche, tandis que les décodeurs excellent dans les tâches génératives. Cependant, nous montrons qu'adapter un modèle de décodeur aux tâches d'encodeur (et vice versa) par un entraînement continu est inférieur à l'utilisation de l'objectif inverse uniquement (par exemple, un encodeur de 400 millions de paramètres surpasse un décodeur de 1 milliard sur MNLI, et vice versa pour les tâches génératives). Nous rendons publics tous les artefacts de cette étude, y compris les données d'entraînement, l'ordre d'entraînement segmenté par point de contrôle, et plus de 200 points de contrôle, afin de permettre aux travaux futurs d'analyser ou d'étendre tous les aspects de l'entraînement.
English
The large language model (LLM) community focuses almost exclusively on
decoder-only language models, since they are easier to use for text generation.
However, a large subset of the community still uses encoder-only models for
tasks such as classification or retrieval. Previous work has attempted to
compare these architectures, but is forced to make comparisons with models that
have different numbers of parameters, training techniques, and datasets. We
introduce the SOTA open-data Ettin suite of models: paired encoder-only and
decoder-only models ranging from 17 million parameters to 1 billion, trained on
up to 2 trillion tokens. Using the same recipe for both encoder-only and
decoder-only models produces SOTA recipes in both categories for their
respective sizes, beating ModernBERT as an encoder and Llama 3.2 and SmolLM2 as
decoders. Like previous work, we find that encoder-only models excel at
classification and retrieval tasks while decoders excel at generative tasks.
However, we show that adapting a decoder model to encoder tasks (and vice
versa) through continued training is subpar compared to using only the reverse
objective (i.e. a 400M encoder outperforms a 1B decoder on MNLI, and vice versa
for generative tasks). We open-source all artifacts of this study including
training data, training order segmented by checkpoint, and 200+ checkpoints to
allow future work to analyze or extend all aspects of training.