Moeten we encoders nog steeds vooraf trainen met gemaskeerde taalmodellering?
Should We Still Pretrain Encoders with Masked Language Modeling?
July 1, 2025
Auteurs: Hippolyte Gisserot-Boukhlef, Nicolas Boizard, Manuel Faysse, Duarte M. Alves, Emmanuel Malherbe, André F. T. Martins, Céline Hudelot, Pierre Colombo
cs.AI
Samenvatting
Het leren van hoogwaardige tekstrepresentaties is fundamenteel voor een breed scala aan NLP-taken. Hoewel het vooraf trainen van encoders traditioneel steunde op Masked Language Modeling (MLM), suggereert recent bewijs dat decodermodellen die vooraf zijn getraind met Causal Language Modeling (CLM) effectief kunnen worden hergebruikt als encoders, en vaak traditionele encoders overtreffen op benchmarks voor tekstrepresentatie. Het blijft echter onduidelijk of deze verbeteringen een inherent voordeel van het CLM-doel reflecteren of voortkomen uit verstorende factoren zoals de schaal van het model en de data. In dit artikel gaan we deze vraag te lijf via een reeks grootschalige, zorgvuldig gecontroleerde vooraf-trainingsablaties, waarbij we in totaal 30 modellen trainen variërend van 210 miljoen tot 1 miljard parameters, en meer dan 15.000 fine-tuning- en evaluatieruns uitvoeren. We ontdekken dat hoewel trainen met MLM over het algemeen betere prestaties oplevert bij tekstrepresentatietaken, CLM-getrainde modellen data-efficiënter zijn en een verbeterde fine-tuningstabiliteit vertonen. Op basis van deze bevindingen tonen we experimenteel aan dat een bifasische trainingsstrategie die achtereenvolgens CLM en dan MLM toepast, optimale prestaties bereikt binnen een vast computationeel trainingsbudget. Bovendien laten we zien dat deze strategie aantrekkelijker wordt wanneer wordt geïnitialiseerd vanuit gemakkelijk beschikbare vooraf getrainde CLM-modellen (uit het bestaande LLM-ecosysteem), waardoor de computationele last die nodig is om topklasse encodermodellen te trainen, wordt verminderd. We maken alle projectartefacten beschikbaar op https://hf.co/MLMvsCLM om verder onderzoek te bevorderen.
English
Learning high-quality text representations is fundamental to a wide range of
NLP tasks. While encoder pretraining has traditionally relied on Masked
Language Modeling (MLM), recent evidence suggests that decoder models
pretrained with Causal Language Modeling (CLM) can be effectively repurposed as
encoders, often surpassing traditional encoders on text representation
benchmarks. However, it remains unclear whether these gains reflect an inherent
advantage of the CLM objective or arise from confounding factors such as model
and data scale. In this paper, we address this question through a series of
large-scale, carefully controlled pretraining ablations, training a total of 30
models ranging from 210 million to 1 billion parameters, and conducting over
15,000 fine-tuning and evaluation runs. We find that while training with MLM
generally yields better performance across text representation tasks,
CLM-trained models are more data-efficient and demonstrate improved fine-tuning
stability. Building on these findings, we experimentally show that a biphasic
training strategy that sequentially applies CLM and then MLM, achieves optimal
performance under a fixed computational training budget. Moreover, we
demonstrate that this strategy becomes more appealing when initializing from
readily available pretrained CLM models (from the existing LLM ecosystem),
reducing the computational burden needed to train best-in-class encoder models.
We release all project artifacts at https://hf.co/MLMvsCLM to foster further
research.