ModernBERT ou DeBERTaV3? Examinando a Influência da Arquitetura e dos Dados no Desempenho de Modelos de Codificadores Transformers
ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance
April 11, 2025
Autores: Wissam Antoun, Benoît Sagot, Djamé Seddah
cs.AI
Resumo
Modelos pré-treinados de codificadores baseados em transformadores, como DeBERTaV3 e ModernBERT, introduzem avanços arquitetônicos voltados para melhorar eficiência e desempenho. Embora os autores do ModernBERT relatem um desempenho superior ao DeBERTaV3 em vários benchmarks, a falta de divulgação dos dados de treinamento e a ausência de comparações utilizando um conjunto de dados compartilhado dificultam a determinação de se esses ganhos são devidos a melhorias arquitetônicas ou a diferenças nos dados de treinamento. Neste trabalho, conduzimos um estudo controlado pré-treinando o ModernBERT no mesmo conjunto de dados utilizado pelo CamemBERTaV2, um modelo DeBERTaV3 em francês, isolando o efeito do design do modelo. Nossos resultados mostram que a geração anterior de modelos permanece superior em eficiência de amostragem e desempenho geral nos benchmarks, com a principal vantagem do ModernBERT sendo a velocidade mais rápida de treinamento e inferência. No entanto, o novo modelo proposto ainda oferece melhorias arquitetônicas significativas em comparação com modelos anteriores, como BERT e RoBERTa. Além disso, observamos que dados de pré-treinamento de alta qualidade aceleram a convergência, mas não melhoram significativamente o desempenho final, sugerindo uma possível saturação dos benchmarks. Esses achados destacam a importância de separar os dados de pré-treinamento das inovações arquitetônicas ao avaliar modelos baseados em transformadores.
English
Pretrained transformer-encoder models like DeBERTaV3 and ModernBERT introduce
architectural advancements aimed at improving efficiency and performance.
Although the authors of ModernBERT report improved performance over DeBERTaV3
on several benchmarks, the lack of disclosed training data and the absence of
comparisons using a shared dataset make it difficult to determine whether these
gains are due to architectural improvements or differences in training data. In
this work, we conduct a controlled study by pretraining ModernBERT on the same
dataset as CamemBERTaV2, a DeBERTaV3 French model, isolating the effect of
model design. Our results show that the previous model generation remains
superior in sample efficiency and overall benchmark performance, with
ModernBERT's primary advantage being faster training and inference speed.
However, the new proposed model still provides meaningful architectural
improvements compared to earlier models such as BERT and RoBERTa. Additionally,
we observe that high-quality pre-training data accelerates convergence but does
not significantly improve final performance, suggesting potential benchmark
saturation. These findings show the importance of disentangling pretraining
data from architectural innovations when evaluating transformer models.Summary
AI-Generated Summary