Seq 대 Seq: 페어링된 인코더와 디코더의 오픈 제품군
Seq vs Seq: An Open Suite of Paired Encoders and Decoders
July 15, 2025
저자: Orion Weller, Kathryn Ricci, Marc Marone, Antoine Chaffin, Dawn Lawrie, Benjamin Van Durme
cs.AI
초록
대규모 언어 모델(LLM) 커뮤니티는 주로 디코더 전용 언어 모델에 집중하는데, 이는 텍스트 생성에 더 쉽게 사용할 수 있기 때문입니다. 그러나 여전히 많은 연구자들이 분류나 검색과 같은 작업을 위해 인코더 전용 모델을 사용하고 있습니다. 기존 연구에서는 이러한 아키텍처를 비교하려고 시도했지만, 서로 다른 파라미터 수, 훈련 기법, 데이터셋을 가진 모델들을 비교해야 하는 한계가 있었습니다. 우리는 SOTA(State-of-the-Art) 오픈 데이터 Ettin 모델 제품군을 소개합니다: 1,700만 파라미터부터 10억 파라미터까지의 인코더 전용 및 디코더 전용 모델 쌍으로, 최대 2조 토큰으로 훈련되었습니다. 인코더 전용과 디코더 전용 모델 모두에 동일한 레시피를 적용함으로써 각 크기에 맞는 SOTA 레시피를 만들어냈으며, 인코더로서는 ModernBERT를, 디코더로서는 Llama 3.2와 SmolLM2를 능가했습니다. 기존 연구와 마찬가지로, 우리도 인코더 전용 모델이 분류 및 검색 작업에서 뛰어나고 디코더가 생성 작업에서 우수함을 확인했습니다. 그러나 디코더 모델을 인코더 작업에 적응시키거나(그 반대의 경우도 마찬가지) 지속적인 훈련을 통해 적용하는 것은 역방향 목표만 사용하는 것에 비해 성능이 떨어짐을 보여줍니다(예: 4억 파라미터 인코더가 MNLI에서 10억 파라미터 디코더를 능가하며, 생성 작업에서는 그 반대). 우리는 이 연구의 모든 결과물, 훈련 데이터, 체크포인트별로 분할된 훈련 순서, 200개 이상의 체크포인트를 오픈소스로 공개하여 향후 연구가 훈련의 모든 측면을 분석하거나 확장할 수 있도록 합니다.
English
The large language model (LLM) community focuses almost exclusively on
decoder-only language models, since they are easier to use for text generation.
However, a large subset of the community still uses encoder-only models for
tasks such as classification or retrieval. Previous work has attempted to
compare these architectures, but is forced to make comparisons with models that
have different numbers of parameters, training techniques, and datasets. We
introduce the SOTA open-data Ettin suite of models: paired encoder-only and
decoder-only models ranging from 17 million parameters to 1 billion, trained on
up to 2 trillion tokens. Using the same recipe for both encoder-only and
decoder-only models produces SOTA recipes in both categories for their
respective sizes, beating ModernBERT as an encoder and Llama 3.2 and SmolLM2 as
decoders. Like previous work, we find that encoder-only models excel at
classification and retrieval tasks while decoders excel at generative tasks.
However, we show that adapting a decoder model to encoder tasks (and vice
versa) through continued training is subpar compared to using only the reverse
objective (i.e. a 400M encoder outperforms a 1B decoder on MNLI, and vice versa
for generative tasks). We open-source all artifacts of this study including
training data, training order segmented by checkpoint, and 200+ checkpoints to
allow future work to analyze or extend all aspects of training.