Un desvío de modelado de lenguaje causal mejora el preentrenamiento continuado del codificador
A Causal Language Modeling Detour Improves Encoder Continued Pretraining
May 12, 2026
Autores: Rian Touchent, Eric de la Clergerie
cs.AI
Resumen
Al adaptar un codificador a un nuevo dominio, el enfoque estándar consiste en continuar el entrenamiento con Modelado de Lenguaje Enmascarado (MLE). Demostramos que cambiar temporalmente al Modelado de Lenguaje Causal (MLC) seguido de una breve fase de decaimiento con MLE mejora el rendimiento posterior. En textos biomédicos con ModernBERT, este desvío hacia MLC supera a las líneas base de MLE entrenadas con datos y cómputo idénticos en 8 tareas biomédicas en francés y 11 en inglés, con incrementos de +1,2–2,8 puntos porcentuales y +0,3–0,8 puntos porcentuales respectivamente, según el tamaño del modelo. Investigamos las razones de estas mejoras. Observamos que la supervisión densa de MLC afecta a las capas bajas del transformador (0–7) en mucha mayor medida que MLE. Congelar las capas bajas durante MLC elimina el beneficio posterior; congelar las capas medias lo preserva. Los cambios representacionales persisten durante la fase de decaimiento con MLE, incluso cuando esta iguala en duración a la fase de MLC, y escalan con la capacidad del modelo. Publicamos ModernCamemBERT-bio y ModernBERT-bio como codificadores biomédicos de última generación en tamaños Base y Large.
English
When adapting an encoder to a new domain, the standard approach is to continue training with Masked Language Modeling (MLM). We show that temporarily switching to Causal Language Modeling (CLM) followed by a short MLM decay improves downstream performance. On biomedical texts with ModernBERT, this CLM detour outperforms MLM baselines trained on identical data and compute across 8 French and 11 English biomedical tasks, by +1.2-2.8pp and +0.3-0.8pp respectively, depending on model size. We investigate the reasons for these gains. We find that CLM's dense supervision impacts low transformer layers (0-7) far more than MLM does. Freezing low layers during CLM eliminates the downstream benefit; freezing mid layers preserves it. The representational changes persist through the MLM decay phase, even when it matches the CLM phase in length, and they scale with model capacity. We release ModernCamemBERT-bio and ModernBERT-bio as state-of-the-art biomedical encoders in Base and Large sizes.