ModernBERT vs DeBERTaV3? 트랜스포머 인코더 모델 성능에 미치는 아키텍처와 데이터 영향 분석
ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance
April 11, 2025
저자: Wissam Antoun, Benoît Sagot, Djamé Seddah
cs.AI
초록
DeBERTaV3 및 ModernBERT와 같은 사전 학습된 트랜스포머 인코더 모델은 효율성과 성능 향상을 목표로 한 아키텍처 개선을 도입했습니다. ModernBERT의 저자들은 여러 벤치마크에서 DeBERTaV3 대비 성능 향상을 보고했지만, 공개되지 않은 학습 데이터와 공유 데이터셋을 사용한 비교의 부재로 인해 이러한 성능 향상이 아키텍처 개선 때문인지 아니면 학습 데이터의 차이 때문인지 판단하기 어렵습니다. 본 연구에서는 CamemBERTaV2(DeBERTaV3의 프랑스어 모델)와 동일한 데이터셋으로 ModernBERT를 사전 학습하여 모델 설계의 효과를 분리한 통제 연구를 수행했습니다. 그 결과, 이전 세대 모델이 샘플 효율성과 전반적인 벤치마크 성능에서 여전히 우수하며, ModernBERT의 주요 장점은 더 빠른 학습 및 추론 속도임을 확인했습니다. 그러나 새로 제안된 모델은 BERT 및 RoBERTa와 같은 이전 모델 대비 의미 있는 아키텍처 개선을 제공합니다. 또한, 고품질 사전 학습 데이터는 수렴 속도를 가속화하지만 최종 성능을 크게 향상시키지는 않아 벤치마크 포화 가능성을 시사합니다. 이러한 결과는 트랜스포머 모델을 평가할 때 사전 학습 데이터와 아키텍처 혁신을 분리하는 것의 중요성을 보여줍니다.
English
Pretrained transformer-encoder models like DeBERTaV3 and ModernBERT introduce
architectural advancements aimed at improving efficiency and performance.
Although the authors of ModernBERT report improved performance over DeBERTaV3
on several benchmarks, the lack of disclosed training data and the absence of
comparisons using a shared dataset make it difficult to determine whether these
gains are due to architectural improvements or differences in training data. In
this work, we conduct a controlled study by pretraining ModernBERT on the same
dataset as CamemBERTaV2, a DeBERTaV3 French model, isolating the effect of
model design. Our results show that the previous model generation remains
superior in sample efficiency and overall benchmark performance, with
ModernBERT's primary advantage being faster training and inference speed.
However, the new proposed model still provides meaningful architectural
improvements compared to earlier models such as BERT and RoBERTa. Additionally,
we observe that high-quality pre-training data accelerates convergence but does
not significantly improve final performance, suggesting potential benchmark
saturation. These findings show the importance of disentangling pretraining
data from architectural innovations when evaluating transformer models.Summary
AI-Generated Summary