Seq vs Seq: Un Conjunto Abierto de Codificadores y Decodificadores Emparejados
Seq vs Seq: An Open Suite of Paired Encoders and Decoders
July 15, 2025
Autores: Orion Weller, Kathryn Ricci, Marc Marone, Antoine Chaffin, Dawn Lawrie, Benjamin Van Durme
cs.AI
Resumen
La comunidad de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) se enfoca casi exclusivamente en modelos de lenguaje de solo decodificador, ya que son más fáciles de usar para la generación de texto. Sin embargo, un gran subconjunto de la comunidad sigue utilizando modelos de solo codificador para tareas como clasificación o recuperación de información. Trabajos anteriores han intentado comparar estas arquitecturas, pero se han visto obligados a hacer comparaciones con modelos que tienen diferentes números de parámetros, técnicas de entrenamiento y conjuntos de datos. Presentamos la suite de modelos Ettin de datos abiertos de última generación (SOTA): modelos emparejados de solo codificador y solo decodificador que van desde 17 millones de parámetros hasta 1 billón, entrenados con hasta 2 billones de tokens. Utilizar la misma receta tanto para modelos de solo codificador como de solo decodificador produce recetas SOTA en ambas categorías para sus respectivos tamaños, superando a ModernBERT como codificador y a Llama 3.2 y SmolLM2 como decodificadores. Al igual que trabajos anteriores, encontramos que los modelos de solo codificador sobresalen en tareas de clasificación y recuperación, mientras que los decodificadores destacan en tareas generativas. Sin embargo, demostramos que adaptar un modelo decodificador a tareas de codificador (y viceversa) mediante entrenamiento continuo es inferior en comparación con usar solo el objetivo inverso (es decir, un codificador de 400M supera a un decodificador de 1B en MNLI, y viceversa para tareas generativas). Hemos liberado todos los artefactos de este estudio, incluyendo datos de entrenamiento, orden de entrenamiento segmentado por punto de control y más de 200 puntos de control, para permitir que trabajos futuros analicen o amplíen todos los aspectos del entrenamiento.
English
The large language model (LLM) community focuses almost exclusively on
decoder-only language models, since they are easier to use for text generation.
However, a large subset of the community still uses encoder-only models for
tasks such as classification or retrieval. Previous work has attempted to
compare these architectures, but is forced to make comparisons with models that
have different numbers of parameters, training techniques, and datasets. We
introduce the SOTA open-data Ettin suite of models: paired encoder-only and
decoder-only models ranging from 17 million parameters to 1 billion, trained on
up to 2 trillion tokens. Using the same recipe for both encoder-only and
decoder-only models produces SOTA recipes in both categories for their
respective sizes, beating ModernBERT as an encoder and Llama 3.2 and SmolLM2 as
decoders. Like previous work, we find that encoder-only models excel at
classification and retrieval tasks while decoders excel at generative tasks.
However, we show that adapting a decoder model to encoder tasks (and vice
versa) through continued training is subpar compared to using only the reverse
objective (i.e. a 400M encoder outperforms a 1B decoder on MNLI, and vice versa
for generative tasks). We open-source all artifacts of this study including
training data, training order segmented by checkpoint, and 200+ checkpoints to
allow future work to analyze or extend all aspects of training.