Più intelligente, migliore, più veloce, più lungo: Un moderno codificatore bidirezionale per un addestramento e un'infertenza veloci, efficienti in termini di memoria e con un contesto lungo.Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for
Fast, Memory Efficient, and Long Context Finetuning and Inference
I modelli transformer basati solo sull'encoder come BERT offrono un ottimo compromesso tra prestazioni e dimensioni per compiti di recupero e classificazione rispetto ai modelli basati solo sul decoder più grandi. Nonostante siano il cavallo di battaglia di numerose pipeline di produzione, ci sono state poche miglioramenti di Pareto a BERT dall'uscita. In questo articolo, presentiamo ModernBERT, che porta moderne ottimizzazioni di modelli ai modelli basati solo sull'encoder e rappresenta un importante miglioramento di Pareto rispetto ai vecchi encoder. Addestrati su 2 trilioni di token con una lunghezza di sequenza nativa di 8192, i modelli ModernBERT mostrano risultati all'avanguardia su un ampio insieme di valutazioni che comprendono diversi compiti di classificazione e sia il recupero vettoriale singolo che multi-vettoriale in diversi domini (incluso il codice). Oltre alle solide prestazioni downstream, ModernBERT è anche l'encoder più efficiente in termini di velocità e memoria ed è progettato per l'inferenza su GPU comuni.