ModernBERT ou DeBERTaV3 ? Examen de l'influence de l'architecture et des données sur les performances des modèles encodeurs Transformer
ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance
April 11, 2025
Auteurs: Wissam Antoun, Benoît Sagot, Djamé Seddah
cs.AI
Résumé
Les modèles pré-entraînés à encodeur de type transformateur comme DeBERTaV3 et ModernBERT introduisent des avancées architecturales visant à améliorer l'efficacité et les performances. Bien que les auteurs de ModernBERT rapportent de meilleures performances par rapport à DeBERTaV3 sur plusieurs benchmarks, l'absence de données d'entraînement divulguées et le manque de comparaisons utilisant un jeu de données partagé rendent difficile la détermination de savoir si ces gains sont dus à des améliorations architecturales ou à des différences dans les données d'entraînement. Dans ce travail, nous menons une étude contrôlée en pré-entraînant ModernBERT sur le même jeu de données que CamemBERTaV2, un modèle DeBERTaV3 en français, afin d'isoler l'effet de la conception du modèle. Nos résultats montrent que la génération précédente de modèles reste supérieure en termes d'efficacité d'échantillonnage et de performances globales sur les benchmarks, avec comme principal avantage de ModernBERT une vitesse d'entraînement et d'inférence plus rapide. Cependant, le nouveau modèle proposé apporte tout de même des améliorations architecturales significatives par rapport aux modèles antérieurs tels que BERT et RoBERTa. De plus, nous observons que des données de pré-entraînement de haute qualité accélèrent la convergence mais n'améliorent pas significativement les performances finales, suggérant une possible saturation des benchmarks. Ces résultats soulignent l'importance de dissocier les données de pré-entraînement des innovations architecturales lors de l'évaluation des modèles de transformateurs.
English
Pretrained transformer-encoder models like DeBERTaV3 and ModernBERT introduce
architectural advancements aimed at improving efficiency and performance.
Although the authors of ModernBERT report improved performance over DeBERTaV3
on several benchmarks, the lack of disclosed training data and the absence of
comparisons using a shared dataset make it difficult to determine whether these
gains are due to architectural improvements or differences in training data. In
this work, we conduct a controlled study by pretraining ModernBERT on the same
dataset as CamemBERTaV2, a DeBERTaV3 French model, isolating the effect of
model design. Our results show that the previous model generation remains
superior in sample efficiency and overall benchmark performance, with
ModernBERT's primary advantage being faster training and inference speed.
However, the new proposed model still provides meaningful architectural
improvements compared to earlier models such as BERT and RoBERTa. Additionally,
we observe that high-quality pre-training data accelerates convergence but does
not significantly improve final performance, suggesting potential benchmark
saturation. These findings show the importance of disentangling pretraining
data from architectural innovations when evaluating transformer models.Summary
AI-Generated Summary