スマートでより良く、より速く、より長く:高速でメモリ効率の良い長いコンテキストのファインチューニングと推論のためのモダンな双方向エンコーダSmarter, Better, Faster, Longer: A Modern Bidirectional Encoder for
Fast, Memory Efficient, and Long Context Finetuning and Inference
BERTなどのエンコーダーのみのトランスフォーマーモデルは、より大きなデコーダーのみのモデルに比べて、リトリーバルおよび分類タスクにおいて優れたパフォーマンスとサイズのトレードオフを提供します。多くのプロダクションパイプラインで重要な役割を果たしているにも関わらず、BERTにはリリース以来、限られたパレート改善しか見られませんでした。本論文では、モダンなモデル最適化をエンコーダーのみのモデルに導入し、古いエンコーダーに比べて主要なパレート改善を実現するModernBERTを紹介します。2兆トークンで訓練され、ネイティブの8192シーケンス長を持つModernBERTモデルは、さまざまな分類タスクや異なるドメイン(コードを含む)におけるシングルおよびマルチベクトルのリトリーバルを含む幅広い評価において最先端の結果を示します。ダウンストリームのパフォーマンスが強力であるだけでなく、ModernBERTは最も高速かつメモリ効率に優れたエンコーダーであり、一般的なGPU上での推論に適しています。