Devemos ainda pré-treinar codificadores com modelagem de linguagem mascarada?
Should We Still Pretrain Encoders with Masked Language Modeling?
July 1, 2025
Autores: Hippolyte Gisserot-Boukhlef, Nicolas Boizard, Manuel Faysse, Duarte M. Alves, Emmanuel Malherbe, André F. T. Martins, Céline Hudelot, Pierre Colombo
cs.AI
Resumo
Aprender representações de texto de alta qualidade é fundamental para uma ampla gama de tarefas de PLN. Embora o pré-treinamento de codificadores tradicionalmente tenha se baseado no Modelo de Linguagem Mascarada (MLM), evidências recentes sugerem que modelos decodificadores pré-treinados com Modelo de Linguagem Causal (CLM) podem ser efetivamente reutilizados como codificadores, muitas vezes superando codificadores tradicionais em benchmarks de representação de texto. No entanto, ainda não está claro se esses ganhos refletem uma vantagem inerente do objetivo CLM ou surgem de fatores confundidores, como escala do modelo e dos dados. Neste artigo, abordamos essa questão por meio de uma série de ablações de pré-treinamento em grande escala e cuidadosamente controladas, treinando um total de 30 modelos variando de 210 milhões a 1 bilhão de parâmetros e realizando mais de 15.000 execuções de ajuste fino e avaliação. Descobrimos que, embora o treinamento com MLM geralmente produza melhor desempenho em tarefas de representação de texto, os modelos treinados com CLM são mais eficientes em termos de dados e demonstram maior estabilidade no ajuste fino. Com base nessas descobertas, mostramos experimentalmente que uma estratégia de treinamento bifásica que aplica sequencialmente CLM e depois MLM alcança o desempenho ideal sob um orçamento computacional de treinamento fixo. Além disso, demonstramos que essa estratégia se torna mais atraente ao inicializar a partir de modelos CLM pré-treinados prontamente disponíveis (do ecossistema existente de LLMs), reduzindo a carga computacional necessária para treinar modelos codificadores de classe superior. Disponibilizamos todos os artefatos do projeto em https://hf.co/MLMvsCLM para promover pesquisas futuras.
English
Learning high-quality text representations is fundamental to a wide range of
NLP tasks. While encoder pretraining has traditionally relied on Masked
Language Modeling (MLM), recent evidence suggests that decoder models
pretrained with Causal Language Modeling (CLM) can be effectively repurposed as
encoders, often surpassing traditional encoders on text representation
benchmarks. However, it remains unclear whether these gains reflect an inherent
advantage of the CLM objective or arise from confounding factors such as model
and data scale. In this paper, we address this question through a series of
large-scale, carefully controlled pretraining ablations, training a total of 30
models ranging from 210 million to 1 billion parameters, and conducting over
15,000 fine-tuning and evaluation runs. We find that while training with MLM
generally yields better performance across text representation tasks,
CLM-trained models are more data-efficient and demonstrate improved fine-tuning
stability. Building on these findings, we experimentally show that a biphasic
training strategy that sequentially applies CLM and then MLM, achieves optimal
performance under a fixed computational training budget. Moreover, we
demonstrate that this strategy becomes more appealing when initializing from
readily available pretrained CLM models (from the existing LLM ecosystem),
reducing the computational burden needed to train best-in-class encoder models.
We release all project artifacts at https://hf.co/MLMvsCLM to foster further
research.