更聰明、更好、更快、更長:一種現代的雙向編碼器,用於快速、記憶效率高、長內容微調和推論。Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for
Fast, Memory Efficient, and Long Context Finetuning and Inference
像BERT這樣僅具編碼器的Transformer模型在檢索和分類任務中提供了極佳的性能與尺寸平衡,相較於較大的僅具解碼器模型。儘管BERT是眾多生產管道的主力,但自推出以來對其進行Pareto改進的空間有限。本文介紹了ModernBERT,將現代模型優化應用於僅具編碼器模型,並在舊編碼器基礎上實現了重大的Pareto改進。ModernBERT在訓練時使用了2兆個標記,原生序列長度為8192,並在包括不同領域(包括代碼)的各種分類任務和單向/多向檢索中展現了最先進的結果。除了出色的下游性能外,ModernBERT也是最快速和記憶體效率最高的編碼器,並且設計用於在常見GPU上進行推斷。