Intelligenter, besser, schneller, länger: Ein moderner bidirektionaler Encoder für schnelles, speichereffizientes und langzeitiges Feintuning und InferenzSmarter, Better, Faster, Longer: A Modern Bidirectional Encoder for
Fast, Memory Efficient, and Long Context Finetuning and Inference
Encoder-only Transformer-Modelle wie BERT bieten ein hervorragendes Verhältnis von Leistung und Größe für Abruf- und Klassifizierungsaufgaben im Vergleich zu größeren Decoder-Modellen. Obwohl sie das Arbeitspferd zahlreicher Produktionspipelines sind, gab es seit seiner Veröffentlichung nur begrenzte Pareto-Verbesserungen für BERT. In diesem Paper stellen wir ModernBERT vor, das moderne Modelloptimierungen für ausschließlich Encoder-Modelle einführt und eine bedeutende Pareto-Verbesserung gegenüber älteren Encodern darstellt. Trainiert mit 2 Billionen Tokens und einer nativen Sequenzlänge von 8192 zeigen ModernBERT-Modelle Spitzenleistungen bei einer Vielzahl von Bewertungen, die verschiedene Klassifizierungsaufgaben sowie Einzel- und Mehrvektor-Abruf in verschiedenen Bereichen (einschließlich Code) umfassen. Neben einer starken Leistung in der Nachbearbeitung ist ModernBERT auch der effizienteste Encoder hinsichtlich Geschwindigkeit und Speichernutzung und wurde für die Inferenz auf gängigen GPUs konzipiert.