Seq vs Seq: Een Open Suite van Gepaarde Encoders en Decoders

Samenvatting

De gemeenschap rond grote taalmodellen (LLM's) richt zich bijna uitsluitend op decoder-only taalmodellen, omdat deze gemakkelijker te gebruiken zijn voor tekstgeneratie. Een groot deel van de gemeenschap gebruikt echter nog steeds encoder-only modellen voor taken zoals classificatie of retrieval. Eerdere onderzoeken hebben geprobeerd deze architecturen te vergelijken, maar werden gedwongen om vergelijkingen te maken met modellen die verschillen in het aantal parameters, trainingsmethoden en datasets. Wij introduceren de SOTA open-data Ettin-suite van modellen: gepaarde encoder-only en decoder-only modellen variërend van 17 miljoen parameters tot 1 miljard, getraind op maximaal 2 biljoen tokens. Door hetzelfde recept te gebruiken voor zowel encoder-only als decoder-only modellen, produceren we SOTA-recepten in beide categorieën voor hun respectieve grootten, waarbij ModernBERT wordt overtroffen als encoder en Llama 3.2 en SmolLM2 als decoders. Net als in eerdere onderzoeken, vinden we dat encoder-only modellen uitblinken in classificatie- en retrievaltaken, terwijl decoders beter presteren in generatieve taken. We tonen echter aan dat het aanpassen van een decodermodel aan encodertaken (en vice versa) door middel van voortgezette training minder goed presteert in vergelijking met het gebruik van alleen het omgekeerde doel (d.w.z. een 400M encoder presteert beter dan een 1B decoder op MNLI, en vice versa voor generatieve taken). We open-sourcen alle artefacten van deze studie, inclusief trainingsdata, trainingsvolgorde gesegmenteerd per checkpoint, en meer dan 200 checkpoints, om toekomstig onderzoek in staat te stellen alle aspecten van de training te analyseren of uit te breiden.

English

The large language model (LLM) community focuses almost exclusively on decoder-only language models, since they are easier to use for text generation. However, a large subset of the community still uses encoder-only models for tasks such as classification or retrieval. Previous work has attempted to compare these architectures, but is forced to make comparisons with models that have different numbers of parameters, training techniques, and datasets. We introduce the SOTA open-data Ettin suite of models: paired encoder-only and decoder-only models ranging from 17 million parameters to 1 billion, trained on up to 2 trillion tokens. Using the same recipe for both encoder-only and decoder-only models produces SOTA recipes in both categories for their respective sizes, beating ModernBERT as an encoder and Llama 3.2 and SmolLM2 as decoders. Like previous work, we find that encoder-only models excel at classification and retrieval tasks while decoders excel at generative tasks. However, we show that adapting a decoder model to encoder tasks (and vice versa) through continued training is subpar compared to using only the reverse objective (i.e. a 400M encoder outperforms a 1B decoder on MNLI, and vice versa for generative tasks). We open-source all artifacts of this study including training data, training order segmented by checkpoint, and 200+ checkpoints to allow future work to analyze or extend all aspects of training.

Seq vs Seq: Een Open Suite van Gepaarde Encoders en Decoders

Seq vs Seq: An Open Suite of Paired Encoders and Decoders

Samenvatting

Support