ModernBERT или DeBERTaV3? Исследование влияния архитектуры и данных на производительность моделей с трансформерным кодировщиком

Аннотация

Предобученные модели с трансформер-энкодером, такие как DeBERTaV3 и ModernBERT, представляют архитектурные усовершенствования, направленные на повышение эффективности и производительности. Хотя авторы ModernBERT сообщают о более высокой производительности по сравнению с DeBERTaV3 на нескольких бенчмарках, отсутствие раскрытых данных для обучения и сравнений на общем наборе данных затрудняет определение, обусловлены ли эти улучшения архитектурными изменениями или различиями в данных обучения. В данной работе мы проводим контролируемое исследование, предобучая ModernBERT на том же наборе данных, что и CamemBERTaV2, модель DeBERTaV3 для французского языка, чтобы изолировать влияние архитектуры модели. Наши результаты показывают, что предыдущее поколение моделей остается превосходящим в эффективности использования данных и общей производительности на бенчмарках, при этом основное преимущество ModernBERT заключается в более быстром обучении и скорости вывода. Тем не менее, новая предложенная модель все же обеспечивает значительные архитектурные улучшения по сравнению с более ранними моделями, такими как BERT и RoBERTa. Кроме того, мы наблюдаем, что высококачественные данные предобучения ускоряют сходимость, но незначительно улучшают итоговую производительность, что указывает на возможное насыщение бенчмарков. Эти результаты подчеркивают важность разделения влияния данных предобучения и архитектурных инноваций при оценке моделей на основе трансформеров.

English

Pretrained transformer-encoder models like DeBERTaV3 and ModernBERT introduce architectural advancements aimed at improving efficiency and performance. Although the authors of ModernBERT report improved performance over DeBERTaV3 on several benchmarks, the lack of disclosed training data and the absence of comparisons using a shared dataset make it difficult to determine whether these gains are due to architectural improvements or differences in training data. In this work, we conduct a controlled study by pretraining ModernBERT on the same dataset as CamemBERTaV2, a DeBERTaV3 French model, isolating the effect of model design. Our results show that the previous model generation remains superior in sample efficiency and overall benchmark performance, with ModernBERT's primary advantage being faster training and inference speed. However, the new proposed model still provides meaningful architectural improvements compared to earlier models such as BERT and RoBERTa. Additionally, we observe that high-quality pre-training data accelerates convergence but does not significantly improve final performance, suggesting potential benchmark saturation. These findings show the importance of disentangling pretraining data from architectural innovations when evaluating transformer models.

ModernBERT или DeBERTaV3? Исследование влияния архитектуры и данных на производительность моделей с трансформерным кодировщиком

ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance

Аннотация

Support