ModernBERT of DeBERTaV3? Onderzoek naar de invloed van architectuur en data op de prestaties van Transformer Encoder-modellen
ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance
April 11, 2025
Auteurs: Wissam Antoun, Benoît Sagot, Djamé Seddah
cs.AI
Samenvatting
Voorgetrainde transformer-encoder modellen zoals DeBERTaV3 en ModernBERT introduceren
architectonische verbeteringen die gericht zijn op het verhogen van efficiëntie en prestaties.
Hoewel de auteurs van ModernBERT verbeterde prestaties ten opzichte van DeBERTaV3
melden op verschillende benchmarks, maakt het ontbreken van vrijgegeven trainingsdata en het ontbreken van
vergelijkingen met behulp van een gedeelde dataset het moeilijk om te bepalen of deze
verbeteringen het gevolg zijn van architectonische innovaties of verschillen in trainingsdata. In
dit werk voeren we een gecontroleerde studie uit door ModernBERT voor te trainen op dezelfde
dataset als CamemBERTaV2, een Frans DeBERTaV3-model, om het effect van
modelontwerp te isoleren. Onze resultaten laten zien dat de vorige modelgeneratie superieur blijft
in steekproefefficiëntie en algehele benchmarkprestaties, waarbij het primaire voordeel van ModernBERT
snellere training en inferentiesnelheid is. Desalniettemin biedt het nieuwe voorgestelde model
nog steeds zinvolle architectonische verbeteringen in vergelijking met eerdere modellen zoals BERT en RoBERTa. Daarnaast
observeren we dat hoogwaardige voorafgaande trainingsdata de convergentie versnelt, maar niet
significant bijdraagt aan de uiteindelijke prestaties, wat wijst op mogelijke benchmarkverzadiging. Deze bevindingen
benadrukken het belang van het ontwarren van voorafgaande trainingsdata en architectonische innovaties bij het evalueren van transformermodellen.
English
Pretrained transformer-encoder models like DeBERTaV3 and ModernBERT introduce
architectural advancements aimed at improving efficiency and performance.
Although the authors of ModernBERT report improved performance over DeBERTaV3
on several benchmarks, the lack of disclosed training data and the absence of
comparisons using a shared dataset make it difficult to determine whether these
gains are due to architectural improvements or differences in training data. In
this work, we conduct a controlled study by pretraining ModernBERT on the same
dataset as CamemBERTaV2, a DeBERTaV3 French model, isolating the effect of
model design. Our results show that the previous model generation remains
superior in sample efficiency and overall benchmark performance, with
ModernBERT's primary advantage being faster training and inference speed.
However, the new proposed model still provides meaningful architectural
improvements compared to earlier models such as BERT and RoBERTa. Additionally,
we observe that high-quality pre-training data accelerates convergence but does
not significantly improve final performance, suggesting potential benchmark
saturation. These findings show the importance of disentangling pretraining
data from architectural innovations when evaluating transformer models.Summary
AI-Generated Summary