ChatPaper.aiChatPaper

Стоит ли по-прежнему предобучать энкодеры с помощью маскированного языкового моделирования?

Should We Still Pretrain Encoders with Masked Language Modeling?

July 1, 2025
Авторы: Hippolyte Gisserot-Boukhlef, Nicolas Boizard, Manuel Faysse, Duarte M. Alves, Emmanuel Malherbe, André F. T. Martins, Céline Hudelot, Pierre Colombo
cs.AI

Аннотация

Обучение высококачественных текстовых представлений является основополагающим для широкого спектра задач обработки естественного языка (NLP). Хотя предварительное обучение энкодеров традиционно основывалось на маскированном языковом моделировании (MLM), недавние исследования показывают, что декодеры, предварительно обученные с использованием каузального языкового моделирования (CLM), могут быть эффективно перепрофилированы в энкодеры, часто превосходя традиционные энкодеры на бенчмарках текстовых представлений. Однако остается неясным, отражают ли эти улучшения внутреннее преимущество цели CLM или возникают из-за смешивающих факторов, таких как масштаб модели и данных. В данной работе мы исследуем этот вопрос с помощью серии крупномасштабных, тщательно контролируемых экспериментов по предварительному обучению, обучив в общей сложности 30 моделей с количеством параметров от 210 миллионов до 1 миллиарда и проведя более 15 000 экспериментов по тонкой настройке и оценке. Мы обнаружили, что, хотя обучение с использованием MLM в целом обеспечивает лучшую производительность в задачах текстового представления, модели, обученные с CLM, более эффективны в использовании данных и демонстрируют улучшенную стабильность при тонкой настройке. На основе этих результатов мы экспериментально показываем, что двухфазная стратегия обучения, которая последовательно применяет CLM, а затем MLM, достигает оптимальной производительности при фиксированном вычислительном бюджете обучения. Более того, мы демонстрируем, что эта стратегия становится еще более привлекательной при инициализации из доступных предварительно обученных моделей CLM (из существующей экосистемы LLM), снижая вычислительную нагрузку, необходимую для обучения лучших в своем классе моделей энкодеров. Мы публикуем все материалы проекта по адресу https://hf.co/MLMvsCLM для содействия дальнейшим исследованиям.
English
Learning high-quality text representations is fundamental to a wide range of NLP tasks. While encoder pretraining has traditionally relied on Masked Language Modeling (MLM), recent evidence suggests that decoder models pretrained with Causal Language Modeling (CLM) can be effectively repurposed as encoders, often surpassing traditional encoders on text representation benchmarks. However, it remains unclear whether these gains reflect an inherent advantage of the CLM objective or arise from confounding factors such as model and data scale. In this paper, we address this question through a series of large-scale, carefully controlled pretraining ablations, training a total of 30 models ranging from 210 million to 1 billion parameters, and conducting over 15,000 fine-tuning and evaluation runs. We find that while training with MLM generally yields better performance across text representation tasks, CLM-trained models are more data-efficient and demonstrate improved fine-tuning stability. Building on these findings, we experimentally show that a biphasic training strategy that sequentially applies CLM and then MLM, achieves optimal performance under a fixed computational training budget. Moreover, we demonstrate that this strategy becomes more appealing when initializing from readily available pretrained CLM models (from the existing LLM ecosystem), reducing the computational burden needed to train best-in-class encoder models. We release all project artifacts at https://hf.co/MLMvsCLM to foster further research.
PDF545July 8, 2025