Devons-nous encore pré-entraîner les encodeurs avec le modèle de langage masqué ?
Should We Still Pretrain Encoders with Masked Language Modeling?
July 1, 2025
Auteurs: Hippolyte Gisserot-Boukhlef, Nicolas Boizard, Manuel Faysse, Duarte M. Alves, Emmanuel Malherbe, André F. T. Martins, Céline Hudelot, Pierre Colombo
cs.AI
Résumé
L'apprentissage de représentations textuelles de haute qualité est fondamental pour une large gamme de tâches en traitement automatique du langage naturel (TALN). Bien que le pré-entraînement des encodeurs ait traditionnellement reposé sur le modèle de langage masqué (MLM), des preuves récentes suggèrent que les modèles décodeurs pré-entraînés avec le modèle de langage causal (CLM) peuvent être efficacement réutilisés comme encodeurs, surpassant souvent les encodeurs traditionnels sur les benchmarks de représentation textuelle. Cependant, il reste incertain si ces gains reflètent un avantage intrinsèque de l'objectif CLM ou découlent de facteurs confondants tels que l'échelle du modèle et des données. Dans cet article, nous abordons cette question à travers une série d'ablation de pré-entraînement à grande échelle et soigneusement contrôlées, entraînant un total de 30 modèles allant de 210 millions à 1 milliard de paramètres, et effectuant plus de 15 000 exécutions de fine-tuning et d'évaluation. Nous constatons que bien que l'entraînement avec MLM donne généralement de meilleures performances sur les tâches de représentation textuelle, les modèles entraînés avec CLM sont plus efficaces en termes de données et démontrent une meilleure stabilité lors du fine-tuning. Sur la base de ces résultats, nous montrons expérimentalement qu'une stratégie d'entraînement biphasique qui applique séquentiellement CLM puis MLM, atteint des performances optimales sous un budget de calcul d'entraînement fixe. De plus, nous démontrons que cette stratégie devient plus attrayante lors de l'initialisation à partir de modèles CLM pré-entraînés facilement disponibles (provenant de l'écosystème existant des LLM), réduisant ainsi la charge de calcul nécessaire pour entraîner des modèles encodeurs de classe mondiale. Nous publions tous les artefacts du projet à l'adresse https://hf.co/MLMvsCLM pour favoriser des recherches ultérieures.
English
Learning high-quality text representations is fundamental to a wide range of
NLP tasks. While encoder pretraining has traditionally relied on Masked
Language Modeling (MLM), recent evidence suggests that decoder models
pretrained with Causal Language Modeling (CLM) can be effectively repurposed as
encoders, often surpassing traditional encoders on text representation
benchmarks. However, it remains unclear whether these gains reflect an inherent
advantage of the CLM objective or arise from confounding factors such as model
and data scale. In this paper, we address this question through a series of
large-scale, carefully controlled pretraining ablations, training a total of 30
models ranging from 210 million to 1 billion parameters, and conducting over
15,000 fine-tuning and evaluation runs. We find that while training with MLM
generally yields better performance across text representation tasks,
CLM-trained models are more data-efficient and demonstrate improved fine-tuning
stability. Building on these findings, we experimentally show that a biphasic
training strategy that sequentially applies CLM and then MLM, achieves optimal
performance under a fixed computational training budget. Moreover, we
demonstrate that this strategy becomes more appealing when initializing from
readily available pretrained CLM models (from the existing LLM ecosystem),
reducing the computational burden needed to train best-in-class encoder models.
We release all project artifacts at https://hf.co/MLMvsCLM to foster further
research.