Seq vs Seq: Un Conjunto Abierto de Codificadores y Decodificadores Emparejados

Resumen

La comunidad de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) se enfoca casi exclusivamente en modelos de lenguaje de solo decodificador, ya que son más fáciles de usar para la generación de texto. Sin embargo, un gran subconjunto de la comunidad sigue utilizando modelos de solo codificador para tareas como clasificación o recuperación de información. Trabajos anteriores han intentado comparar estas arquitecturas, pero se han visto obligados a hacer comparaciones con modelos que tienen diferentes números de parámetros, técnicas de entrenamiento y conjuntos de datos. Presentamos la suite de modelos Ettin de datos abiertos de última generación (SOTA): modelos emparejados de solo codificador y solo decodificador que van desde 17 millones de parámetros hasta 1 billón, entrenados con hasta 2 billones de tokens. Utilizar la misma receta tanto para modelos de solo codificador como de solo decodificador produce recetas SOTA en ambas categorías para sus respectivos tamaños, superando a ModernBERT como codificador y a Llama 3.2 y SmolLM2 como decodificadores. Al igual que trabajos anteriores, encontramos que los modelos de solo codificador sobresalen en tareas de clasificación y recuperación, mientras que los decodificadores destacan en tareas generativas. Sin embargo, demostramos que adaptar un modelo decodificador a tareas de codificador (y viceversa) mediante entrenamiento continuo es inferior en comparación con usar solo el objetivo inverso (es decir, un codificador de 400M supera a un decodificador de 1B en MNLI, y viceversa para tareas generativas). Hemos liberado todos los artefactos de este estudio, incluyendo datos de entrenamiento, orden de entrenamiento segmentado por punto de control y más de 200 puntos de control, para permitir que trabajos futuros analicen o amplíen todos los aspectos del entrenamiento.

English

The large language model (LLM) community focuses almost exclusively on decoder-only language models, since they are easier to use for text generation. However, a large subset of the community still uses encoder-only models for tasks such as classification or retrieval. Previous work has attempted to compare these architectures, but is forced to make comparisons with models that have different numbers of parameters, training techniques, and datasets. We introduce the SOTA open-data Ettin suite of models: paired encoder-only and decoder-only models ranging from 17 million parameters to 1 billion, trained on up to 2 trillion tokens. Using the same recipe for both encoder-only and decoder-only models produces SOTA recipes in both categories for their respective sizes, beating ModernBERT as an encoder and Llama 3.2 and SmolLM2 as decoders. Like previous work, we find that encoder-only models excel at classification and retrieval tasks while decoders excel at generative tasks. However, we show that adapting a decoder model to encoder tasks (and vice versa) through continued training is subpar compared to using only the reverse objective (i.e. a 400M encoder outperforms a 1B decoder on MNLI, and vice versa for generative tasks). We open-source all artifacts of this study including training data, training order segmented by checkpoint, and 200+ checkpoints to allow future work to analyze or extend all aspects of training.

Seq vs Seq: Un Conjunto Abierto de Codificadores y Decodificadores Emparejados

Seq vs Seq: An Open Suite of Paired Encoders and Decoders

Resumen

Support