Sollten wir Encoder immer noch mit Masked Language Modeling vortrainieren?
Should We Still Pretrain Encoders with Masked Language Modeling?
July 1, 2025
Autoren: Hippolyte Gisserot-Boukhlef, Nicolas Boizard, Manuel Faysse, Duarte M. Alves, Emmanuel Malherbe, André F. T. Martins, Céline Hudelot, Pierre Colombo
cs.AI
Zusammenfassung
Das Erlernen hochwertiger Textrepräsentationen ist grundlegend für eine Vielzahl von NLP-Aufgaben. Während das Vortraining von Encodern traditionell auf Masked Language Modeling (MLM) basierte, deuten jüngste Erkenntnisse darauf hin, dass Decoder-Modelle, die mit Causal Language Modeling (CLM) vortrainiert wurden, effektiv als Encoder umfunktioniert werden können und dabei oft traditionelle Encoder auf Textrepräsentations-Benchmarks übertreffen. Es bleibt jedoch unklar, ob diese Gewinne einen inhärenten Vorteil des CLM-Ziels widerspiegeln oder auf Störfaktoren wie Modell- und Datenumfang zurückzuführen sind. In dieser Arbeit gehen wir dieser Frage durch eine Reihe von groß angelegten, sorgfältig kontrollierten Vortrainings-Ablationen nach, indem wir insgesamt 30 Modelle mit einer Größe von 210 Millionen bis 1 Milliarden Parametern trainieren und über 15.000 Feinabstimmungs- und Evaluierungsläufe durchführen. Wir stellen fest, dass das Training mit MLM zwar im Allgemeinen eine bessere Leistung über verschiedene Textrepräsentationsaufgaben hinweg erzielt, CLM-trainierte Modelle jedoch dateneffizienter sind und eine verbesserte Feinabstimmungsstabilität aufweisen. Aufbauend auf diesen Erkenntnissen zeigen wir experimentell, dass eine zweiphasige Trainingsstrategie, die zunächst CLM und dann MLM anwendet, unter einem festen rechnerischen Trainingsbudget eine optimale Leistung erzielt. Darüber hinaus demonstrieren wir, dass diese Strategie noch attraktiver wird, wenn man von leicht verfügbaren vortrainierten CLM-Modellen (aus dem bestehenden LLM-Ökosystem) ausgeht, wodurch der rechnerische Aufwand zur Ausbildung erstklassiger Encoder-Modelle reduziert wird. Wir veröffentlichen alle Projektartefakte unter https://hf.co/MLMvsCLM, um weitere Forschungen zu fördern.
English
Learning high-quality text representations is fundamental to a wide range of
NLP tasks. While encoder pretraining has traditionally relied on Masked
Language Modeling (MLM), recent evidence suggests that decoder models
pretrained with Causal Language Modeling (CLM) can be effectively repurposed as
encoders, often surpassing traditional encoders on text representation
benchmarks. However, it remains unclear whether these gains reflect an inherent
advantage of the CLM objective or arise from confounding factors such as model
and data scale. In this paper, we address this question through a series of
large-scale, carefully controlled pretraining ablations, training a total of 30
models ranging from 210 million to 1 billion parameters, and conducting over
15,000 fine-tuning and evaluation runs. We find that while training with MLM
generally yields better performance across text representation tasks,
CLM-trained models are more data-efficient and demonstrate improved fine-tuning
stability. Building on these findings, we experimentally show that a biphasic
training strategy that sequentially applies CLM and then MLM, achieves optimal
performance under a fixed computational training budget. Moreover, we
demonstrate that this strategy becomes more appealing when initializing from
readily available pretrained CLM models (from the existing LLM ecosystem),
reducing the computational burden needed to train best-in-class encoder models.
We release all project artifacts at https://hf.co/MLMvsCLM to foster further
research.