ChatPaper.aiChatPaper

Seq vs Seq: ペア型エンコーダーとデコーダーのオープンスイート

Seq vs Seq: An Open Suite of Paired Encoders and Decoders

July 15, 2025
著者: Orion Weller, Kathryn Ricci, Marc Marone, Antoine Chaffin, Dawn Lawrie, Benjamin Van Durme
cs.AI

要旨

大規模言語モデル(LLM)コミュニティは、テキスト生成に使いやすいデコーダのみの言語モデルにほぼ独占的に焦点を当てています。しかし、分類や検索などのタスクでは、依然としてエンコーダのみのモデルを使用するコミュニティの大部分が存在します。これまでの研究では、これらのアーキテクチャを比較しようと試みてきましたが、パラメータ数、トレーニング手法、データセットが異なるモデル間での比較を余儀なくされてきました。本研究では、SOTA(State-of-the-Art)のオープンデータモデルスイート「Ettin」を紹介します。これは、1700万パラメータから10億パラメータまでのエンコーダのみとデコーダのみのモデルをペアで提供し、最大2兆トークンでトレーニングされています。エンコーダのみとデコーダのみのモデルに対して同じレシピを使用することで、それぞれのサイズにおいてSOTAのレシピを実現し、エンコーダとしてModernBERTを、デコーダとしてLlama 3.2とSmolLM2を上回りました。これまでの研究と同様に、エンコーダのみのモデルは分類や検索タスクで優れている一方、デコーダは生成タスクで優れていることがわかりました。しかし、デコーダモデルをエンコーダタスクに適応させる(またはその逆)ための継続トレーニングは、逆の目的のみを使用する場合に比べて劣ることを示しました(例えば、400MのエンコーダはMNLIで1Bのデコーダを上回り、生成タスクではその逆が成立します)。本研究のすべての成果物、トレーニングデータ、チェックポイントごとに分割されたトレーニング順序、および200以上のチェックポイントをオープンソースとして公開し、将来の研究がトレーニングのすべての側面を分析または拡張できるようにしました。
English
The large language model (LLM) community focuses almost exclusively on decoder-only language models, since they are easier to use for text generation. However, a large subset of the community still uses encoder-only models for tasks such as classification or retrieval. Previous work has attempted to compare these architectures, but is forced to make comparisons with models that have different numbers of parameters, training techniques, and datasets. We introduce the SOTA open-data Ettin suite of models: paired encoder-only and decoder-only models ranging from 17 million parameters to 1 billion, trained on up to 2 trillion tokens. Using the same recipe for both encoder-only and decoder-only models produces SOTA recipes in both categories for their respective sizes, beating ModernBERT as an encoder and Llama 3.2 and SmolLM2 as decoders. Like previous work, we find that encoder-only models excel at classification and retrieval tasks while decoders excel at generative tasks. However, we show that adapting a decoder model to encoder tasks (and vice versa) through continued training is subpar compared to using only the reverse objective (i.e. a 400M encoder outperforms a 1B decoder on MNLI, and vice versa for generative tasks). We open-source all artifacts of this study including training data, training order segmented by checkpoint, and 200+ checkpoints to allow future work to analyze or extend all aspects of training.
PDF157July 17, 2025