Seq vs Seq: Eine offene Sammlung gepaarter Encoder und Decoder

papers.abstract

Die Community der großen Sprachmodelle (LLMs) konzentriert sich fast ausschließlich auf Decoder-only-Sprachmodelle, da diese einfacher für die Textgenerierung einzusetzen sind. Dennoch nutzt ein großer Teil der Community weiterhin Encoder-only-Modelle für Aufgaben wie Klassifikation oder Retrieval. Frühere Arbeiten haben versucht, diese Architekturen zu vergleichen, waren jedoch gezwungen, Modelle mit unterschiedlichen Parameternanzahlen, Trainingsmethoden und Datensätzen zu vergleichen. Wir stellen die SOTA Open-Data-Ettin-Modellsuite vor: gepaarte Encoder-only- und Decoder-only-Modelle mit einer Bandbreite von 17 Millionen bis 1 Milliarde Parametern, trainiert mit bis zu 2 Billionen Tokens. Die Verwendung desselben Rezepts für sowohl Encoder-only- als auch Decoder-only-Modelle führt zu SOTA-Rezepten in beiden Kategorien für ihre jeweiligen Größen, wobei ModernBERT als Encoder und Llama 3.2 sowie SmolLM2 als Decoder übertroffen werden. Wie in früheren Arbeiten festgestellt, zeigen wir, dass Encoder-only-Modelle bei Klassifikations- und Retrieval-Aufgaben hervorragend abschneiden, während Decoder bei generativen Aufgaben glänzen. Allerdings zeigen wir, dass die Anpassung eines Decoder-Modells an Encoder-Aufgaben (und umgekehrt) durch weiteres Training im Vergleich zur ausschließlichen Verwendung des umgekehrten Ziels (d.h. ein 400M-Encoder übertrifft einen 1B-Decoder bei MNLI und umgekehrt bei generativen Aufgaben) unterlegen ist. Wir veröffentlichen alle Artefakte dieser Studie, einschließlich der Trainingsdaten, der nach Checkpoints segmentierten Trainingsreihenfolge und über 200 Checkpoints, um zukünftigen Arbeiten die Möglichkeit zu geben, alle Aspekte des Trainings zu analysieren oder zu erweitern.

English

The large language model (LLM) community focuses almost exclusively on decoder-only language models, since they are easier to use for text generation. However, a large subset of the community still uses encoder-only models for tasks such as classification or retrieval. Previous work has attempted to compare these architectures, but is forced to make comparisons with models that have different numbers of parameters, training techniques, and datasets. We introduce the SOTA open-data Ettin suite of models: paired encoder-only and decoder-only models ranging from 17 million parameters to 1 billion, trained on up to 2 trillion tokens. Using the same recipe for both encoder-only and decoder-only models produces SOTA recipes in both categories for their respective sizes, beating ModernBERT as an encoder and Llama 3.2 and SmolLM2 as decoders. Like previous work, we find that encoder-only models excel at classification and retrieval tasks while decoders excel at generative tasks. However, we show that adapting a decoder model to encoder tasks (and vice versa) through continued training is subpar compared to using only the reverse objective (i.e. a 400M encoder outperforms a 1B decoder on MNLI, and vice versa for generative tasks). We open-source all artifacts of this study including training data, training order segmented by checkpoint, and 200+ checkpoints to allow future work to analyze or extend all aspects of training.

Seq vs Seq: Eine offene Sammlung gepaarter Encoder und Decoder

Seq vs Seq: An Open Suite of Paired Encoders and Decoders

papers.abstract

Support