Plus intelligent, meilleur, plus rapide, plus long : un encodeur bidirectionnel moderne pour un ajustement fin et une inférence rapides, efficaces en mémoire et prenant en compte de longs contextes.Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for
Fast, Memory Efficient, and Long Context Finetuning and Inference
Les modèles de transformer à encodeur seul tels que BERT offrent un excellent compromis performance-taille pour les tâches de recherche et de classification par rapport aux modèles de décodeur seul plus grands. Malgré le fait d'être le cheval de bataille de nombreux pipelines de production, il y a eu peu d'améliorations de Pareto apportées à BERT depuis sa sortie. Dans cet article, nous introduisons ModernBERT, apportant des optimisations de modèle modernes aux modèles à encodeur seul et représentant une amélioration de Pareto majeure par rapport aux anciens encodeurs. Entraînés sur 2 billions de jetons avec une longueur de séquence native de 8192, les modèles ModernBERT présentent des résultats de pointe sur un large éventail d'évaluations couvrant diverses tâches de classification et de recherche à la fois sur un seul vecteur et sur plusieurs vecteurs dans différents domaines (y compris le code). En plus de performances solides en aval, ModernBERT est également l'encodeur le plus rapide et le plus efficace en termes de mémoire, conçu pour l'inférence sur des GPU courants.