ModernBERT oder DeBERTaV3? Untersuchung des Einflusses von Architektur und Daten auf die Leistung von Transformer-Encoder-Modellen

papers.abstract

Vortrainierte Transformer-Encoder-Modelle wie DeBERTaV3 und ModernBERT führen architektonische Fortschritte ein, die darauf abzielen, Effizienz und Leistung zu verbessern. Obwohl die Autoren von ModernBERTover DeBERTaV3 auf mehreren Benchmarks eine verbesserte Leistung berichten, erschweren das Fehlen offengelegter Trainingsdaten und der Mangel an Vergleichen mit einem gemeinsamen Datensatz die Bestimmung, ob diese Gewinne auf architektonische Verbesserungen oder Unterschiede in den Trainingsdaten zurückzuführen sind. In dieser Arbeit führen wir eine kontrollierte Studie durch, indem wir ModernBERT auf demselben Datensatz wie CamemBERTaV2, einem französischen DeBERTaV3-Modell, vortrainieren, um den Effekt des Modelldesigns zu isolieren. Unsere Ergebnisse zeigen, dass die vorherige Modellgeneration in Bezug auf Stichprobeneffizienz und Gesamtleistung auf Benchmarks überlegen bleibt, wobei der Hauptvorteil von ModernBERT in der schnelleren Trainings- und Inferenzgeschwindigkeit liegt. Dennoch bietet das neu vorgeschlagene Modell im Vergleich zu früheren Modellen wie BERT und RoBERTa weiterhin bedeutende architektonische Verbesserungen. Zusätzlich beobachten wir, dass hochwertige Vortrainingsdaten die Konvergenz beschleunigen, aber die Endleistung nicht signifikant verbessern, was auf eine mögliche Sättigung der Benchmarks hindeutet. Diese Erkenntnisse unterstreichen die Bedeutung der Trennung von Vortrainingsdaten und architektonischen Innovationen bei der Bewertung von Transformer-Modellen.

English

Pretrained transformer-encoder models like DeBERTaV3 and ModernBERT introduce architectural advancements aimed at improving efficiency and performance. Although the authors of ModernBERT report improved performance over DeBERTaV3 on several benchmarks, the lack of disclosed training data and the absence of comparisons using a shared dataset make it difficult to determine whether these gains are due to architectural improvements or differences in training data. In this work, we conduct a controlled study by pretraining ModernBERT on the same dataset as CamemBERTaV2, a DeBERTaV3 French model, isolating the effect of model design. Our results show that the previous model generation remains superior in sample efficiency and overall benchmark performance, with ModernBERT's primary advantage being faster training and inference speed. However, the new proposed model still provides meaningful architectural improvements compared to earlier models such as BERT and RoBERTa. Additionally, we observe that high-quality pre-training data accelerates convergence but does not significantly improve final performance, suggesting potential benchmark saturation. These findings show the importance of disentangling pretraining data from architectural innovations when evaluating transformer models.

ModernBERT oder DeBERTaV3? Untersuchung des Einflusses von Architektur und Daten auf die Leistung von Transformer-Encoder-Modellen

ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance

papers.abstract

Support