ChatPaper.aiChatPaper

¿Deberíamos seguir preentrenando codificadores con modelado de lenguaje enmascarado?

Should We Still Pretrain Encoders with Masked Language Modeling?

July 1, 2025
Autores: Hippolyte Gisserot-Boukhlef, Nicolas Boizard, Manuel Faysse, Duarte M. Alves, Emmanuel Malherbe, André F. T. Martins, Céline Hudelot, Pierre Colombo
cs.AI

Resumen

Aprender representaciones de texto de alta calidad es fundamental para una amplia gama de tareas de Procesamiento del Lenguaje Natural (PLN). Si bien el preentrenamiento de codificadores tradicionalmente ha dependido del Modelado de Lenguaje Enmascarado (MLM), evidencia reciente sugiere que los modelos decodificadores preentrenados con Modelado de Lenguaje Causal (CLM) pueden reutilizarse efectivamente como codificadores, superando a menudo a los codificadores tradicionales en benchmarks de representación de texto. Sin embargo, no está claro si estas mejoras reflejan una ventaja inherente del objetivo CLM o surgen de factores confusos como la escala del modelo y los datos. En este artículo, abordamos esta pregunta a través de una serie de ablaciones de preentrenamiento a gran escala y cuidadosamente controladas, entrenando un total de 30 modelos que van desde 210 millones hasta 1 billón de parámetros, y realizando más de 15,000 ejecuciones de ajuste fino y evaluación. Encontramos que, aunque el entrenamiento con MLM generalmente produce un mejor rendimiento en tareas de representación de texto, los modelos entrenados con CLM son más eficientes en términos de datos y demuestran una mayor estabilidad en el ajuste fino. Basándonos en estos hallazgos, mostramos experimentalmente que una estrategia de entrenamiento bifásica que aplica secuencialmente CLM y luego MLM, logra un rendimiento óptimo bajo un presupuesto computacional de entrenamiento fijo. Además, demostramos que esta estrategia se vuelve más atractiva cuando se inicializa a partir de modelos CLM preentrenados fácilmente disponibles (del ecosistema existente de LLM), reduciendo la carga computacional necesaria para entrenar modelos codificadores de clase superior. Publicamos todos los artefactos del proyecto en https://hf.co/MLMvsCLM para fomentar más investigaciones.
English
Learning high-quality text representations is fundamental to a wide range of NLP tasks. While encoder pretraining has traditionally relied on Masked Language Modeling (MLM), recent evidence suggests that decoder models pretrained with Causal Language Modeling (CLM) can be effectively repurposed as encoders, often surpassing traditional encoders on text representation benchmarks. However, it remains unclear whether these gains reflect an inherent advantage of the CLM objective or arise from confounding factors such as model and data scale. In this paper, we address this question through a series of large-scale, carefully controlled pretraining ablations, training a total of 30 models ranging from 210 million to 1 billion parameters, and conducting over 15,000 fine-tuning and evaluation runs. We find that while training with MLM generally yields better performance across text representation tasks, CLM-trained models are more data-efficient and demonstrate improved fine-tuning stability. Building on these findings, we experimentally show that a biphasic training strategy that sequentially applies CLM and then MLM, achieves optimal performance under a fixed computational training budget. Moreover, we demonstrate that this strategy becomes more appealing when initializing from readily available pretrained CLM models (from the existing LLM ecosystem), reducing the computational burden needed to train best-in-class encoder models. We release all project artifacts at https://hf.co/MLMvsCLM to foster further research.
PDF545July 8, 2025