인과 언어 모델링 우회가 인코더 지속 사전 학습을 향상시킨다
A Causal Language Modeling Detour Improves Encoder Continued Pretraining
May 12, 2026
저자: Rian Touchent, Eric de la Clergerie
cs.AI
초록
인코더를 새로운 도메인에 적용할 때 표준적인 접근 방식은 마스크 언어 모델링(MLM)을 사용하여 계속 학습하는 것이다. 본 연구에서는 일시적으로 인과 언어 모델링(CLM)으로 전환한 후 짧은 MLM 감쇠 단계를 거치는 방식이 하위 작업 성능을 향상시킴을 보인다. ModernBERT를 사용한 생의학 텍스트 실험에서, 이 CLM 우회 경로는 동일한 데이터와 계산량으로 학습된 MLM 기준선 대비 8개의 프랑스어 및 11개의 영어 생의학 작업에서 모델 크기에 따라 각각 +1.2~2.8퍼센트 포인트, +0.3~0.8퍼센트 포인트 더 높은 성능을 달성한다. 우리는 이러한 성능 향상의 원인을 조사한다. CLM의 조밀한 감독(dense supervision)은 하위 트랜스포머 층(layer 0-7)에 MLM보다 훨씬 더 큰 영향을 미친다는 것을 발견했다. CLM 중 하위 층을 고정하면 하위 작업 이점이 사라지지만, 중간 층을 고정하면 그 이점이 유지된다. 표상 변화는 MLM 감쇠 단계에서도 지속되며, 해당 단계가 CLM 단계와 길이가 같을 때에도 마찬가지이며, 이러한 변화는 모델 용량에 따라 확장된다. 우리는 ModernCamemBERT-bio와 ModernBERT-bio를 Base 및 Large 크기의 최첨단 생의학 인코더로 공개한다.
English
When adapting an encoder to a new domain, the standard approach is to continue training with Masked Language Modeling (MLM). We show that temporarily switching to Causal Language Modeling (CLM) followed by a short MLM decay improves downstream performance. On biomedical texts with ModernBERT, this CLM detour outperforms MLM baselines trained on identical data and compute across 8 French and 11 English biomedical tasks, by +1.2-2.8pp and +0.3-0.8pp respectively, depending on model size. We investigate the reasons for these gains. We find that CLM's dense supervision impacts low transformer layers (0-7) far more than MLM does. Freezing low layers during CLM eliminates the downstream benefit; freezing mid layers preserves it. The representational changes persist through the MLM decay phase, even when it matches the CLM phase in length, and they scale with model capacity. We release ModernCamemBERT-bio and ModernBERT-bio as state-of-the-art biomedical encoders in Base and Large sizes.