ChatPaper.aiChatPaper

ModernBERT of DeBERTaV3? Onderzoek naar de invloed van architectuur en data op de prestaties van Transformer Encoder-modellen

ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance

April 11, 2025
Auteurs: Wissam Antoun, Benoît Sagot, Djamé Seddah
cs.AI

Samenvatting

Voorgetrainde transformer-encoder modellen zoals DeBERTaV3 en ModernBERT introduceren architectonische verbeteringen die gericht zijn op het verhogen van efficiëntie en prestaties. Hoewel de auteurs van ModernBERT verbeterde prestaties ten opzichte van DeBERTaV3 melden op verschillende benchmarks, maakt het ontbreken van vrijgegeven trainingsdata en het ontbreken van vergelijkingen met behulp van een gedeelde dataset het moeilijk om te bepalen of deze verbeteringen het gevolg zijn van architectonische innovaties of verschillen in trainingsdata. In dit werk voeren we een gecontroleerde studie uit door ModernBERT voor te trainen op dezelfde dataset als CamemBERTaV2, een Frans DeBERTaV3-model, om het effect van modelontwerp te isoleren. Onze resultaten laten zien dat de vorige modelgeneratie superieur blijft in steekproefefficiëntie en algehele benchmarkprestaties, waarbij het primaire voordeel van ModernBERT snellere training en inferentiesnelheid is. Desalniettemin biedt het nieuwe voorgestelde model nog steeds zinvolle architectonische verbeteringen in vergelijking met eerdere modellen zoals BERT en RoBERTa. Daarnaast observeren we dat hoogwaardige voorafgaande trainingsdata de convergentie versnelt, maar niet significant bijdraagt aan de uiteindelijke prestaties, wat wijst op mogelijke benchmarkverzadiging. Deze bevindingen benadrukken het belang van het ontwarren van voorafgaande trainingsdata en architectonische innovaties bij het evalueren van transformermodellen.
English
Pretrained transformer-encoder models like DeBERTaV3 and ModernBERT introduce architectural advancements aimed at improving efficiency and performance. Although the authors of ModernBERT report improved performance over DeBERTaV3 on several benchmarks, the lack of disclosed training data and the absence of comparisons using a shared dataset make it difficult to determine whether these gains are due to architectural improvements or differences in training data. In this work, we conduct a controlled study by pretraining ModernBERT on the same dataset as CamemBERTaV2, a DeBERTaV3 French model, isolating the effect of model design. Our results show that the previous model generation remains superior in sample efficiency and overall benchmark performance, with ModernBERT's primary advantage being faster training and inference speed. However, the new proposed model still provides meaningful architectural improvements compared to earlier models such as BERT and RoBERTa. Additionally, we observe that high-quality pre-training data accelerates convergence but does not significantly improve final performance, suggesting potential benchmark saturation. These findings show the importance of disentangling pretraining data from architectural innovations when evaluating transformer models.

Summary

AI-Generated Summary

PDF103April 14, 2025