ModernBERT или DeBERTaV3? Исследование влияния архитектуры и данных на производительность моделей с трансформерным кодировщиком
ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance
April 11, 2025
Авторы: Wissam Antoun, Benoît Sagot, Djamé Seddah
cs.AI
Аннотация
Предобученные модели с трансформер-энкодером, такие как DeBERTaV3 и ModernBERT, представляют архитектурные усовершенствования, направленные на повышение эффективности и производительности. Хотя авторы ModernBERT сообщают о более высокой производительности по сравнению с DeBERTaV3 на нескольких бенчмарках, отсутствие раскрытых данных для обучения и сравнений на общем наборе данных затрудняет определение, обусловлены ли эти улучшения архитектурными изменениями или различиями в данных обучения. В данной работе мы проводим контролируемое исследование, предобучая ModernBERT на том же наборе данных, что и CamemBERTaV2, модель DeBERTaV3 для французского языка, чтобы изолировать влияние архитектуры модели. Наши результаты показывают, что предыдущее поколение моделей остается превосходящим в эффективности использования данных и общей производительности на бенчмарках, при этом основное преимущество ModernBERT заключается в более быстром обучении и скорости вывода. Тем не менее, новая предложенная модель все же обеспечивает значительные архитектурные улучшения по сравнению с более ранними моделями, такими как BERT и RoBERTa. Кроме того, мы наблюдаем, что высококачественные данные предобучения ускоряют сходимость, но незначительно улучшают итоговую производительность, что указывает на возможное насыщение бенчмарков. Эти результаты подчеркивают важность разделения влияния данных предобучения и архитектурных инноваций при оценке моделей на основе трансформеров.
English
Pretrained transformer-encoder models like DeBERTaV3 and ModernBERT introduce
architectural advancements aimed at improving efficiency and performance.
Although the authors of ModernBERT report improved performance over DeBERTaV3
on several benchmarks, the lack of disclosed training data and the absence of
comparisons using a shared dataset make it difficult to determine whether these
gains are due to architectural improvements or differences in training data. In
this work, we conduct a controlled study by pretraining ModernBERT on the same
dataset as CamemBERTaV2, a DeBERTaV3 French model, isolating the effect of
model design. Our results show that the previous model generation remains
superior in sample efficiency and overall benchmark performance, with
ModernBERT's primary advantage being faster training and inference speed.
However, the new proposed model still provides meaningful architectural
improvements compared to earlier models such as BERT and RoBERTa. Additionally,
we observe that high-quality pre-training data accelerates convergence but does
not significantly improve final performance, suggesting potential benchmark
saturation. These findings show the importance of disentangling pretraining
data from architectural innovations when evaluating transformer models.Summary
AI-Generated Summary