ModernBERT oder DeBERTaV3? Untersuchung des Einflusses von Architektur und Daten auf die Leistung von Transformer-Encoder-Modellen
ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance
April 11, 2025
Autoren: Wissam Antoun, Benoît Sagot, Djamé Seddah
cs.AI
Zusammenfassung
Vortrainierte Transformer-Encoder-Modelle wie DeBERTaV3 und ModernBERT führen
architektonische Fortschritte ein, die darauf abzielen, Effizienz und Leistung zu verbessern.
Obwohl die Autoren von ModernBERTover DeBERTaV3 auf mehreren Benchmarks eine verbesserte Leistung berichten, erschweren das Fehlen offengelegter Trainingsdaten und der Mangel an Vergleichen mit einem gemeinsamen Datensatz die Bestimmung, ob diese Gewinne auf architektonische Verbesserungen oder Unterschiede in den Trainingsdaten zurückzuführen sind. In dieser Arbeit führen wir eine kontrollierte Studie durch, indem wir ModernBERT auf demselben Datensatz wie CamemBERTaV2, einem französischen DeBERTaV3-Modell, vortrainieren, um den Effekt des Modelldesigns zu isolieren. Unsere Ergebnisse zeigen, dass die vorherige Modellgeneration in Bezug auf Stichprobeneffizienz und Gesamtleistung auf Benchmarks überlegen bleibt, wobei der Hauptvorteil von ModernBERT in der schnelleren Trainings- und Inferenzgeschwindigkeit liegt. Dennoch bietet das neu vorgeschlagene Modell im Vergleich zu früheren Modellen wie BERT und RoBERTa weiterhin bedeutende architektonische Verbesserungen. Zusätzlich beobachten wir, dass hochwertige Vortrainingsdaten die Konvergenz beschleunigen, aber die Endleistung nicht signifikant verbessern, was auf eine mögliche Sättigung der Benchmarks hindeutet. Diese Erkenntnisse unterstreichen die Bedeutung der Trennung von Vortrainingsdaten und architektonischen Innovationen bei der Bewertung von Transformer-Modellen.
English
Pretrained transformer-encoder models like DeBERTaV3 and ModernBERT introduce
architectural advancements aimed at improving efficiency and performance.
Although the authors of ModernBERT report improved performance over DeBERTaV3
on several benchmarks, the lack of disclosed training data and the absence of
comparisons using a shared dataset make it difficult to determine whether these
gains are due to architectural improvements or differences in training data. In
this work, we conduct a controlled study by pretraining ModernBERT on the same
dataset as CamemBERTaV2, a DeBERTaV3 French model, isolating the effect of
model design. Our results show that the previous model generation remains
superior in sample efficiency and overall benchmark performance, with
ModernBERT's primary advantage being faster training and inference speed.
However, the new proposed model still provides meaningful architectural
improvements compared to earlier models such as BERT and RoBERTa. Additionally,
we observe that high-quality pre-training data accelerates convergence but does
not significantly improve final performance, suggesting potential benchmark
saturation. These findings show the importance of disentangling pretraining
data from architectural innovations when evaluating transformer models.Summary
AI-Generated Summary