Умнее, лучше, быстрее, дольше: Современный двунаправленный кодировщик для быстрой, эффективной с точки зрения памяти, длительной настройки и вывода контекста.Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for
Fast, Memory Efficient, and Long Context Finetuning and Inference
Модели трансформера только с кодировщиком, такие как BERT, предлагают отличный баланс между производительностью и размером для задач извлечения и классификации по сравнению с более крупными моделями только с декодером. Несмотря на то, что они являются основным инструментом многих производственных конвейеров, у модели BERT были ограниченные улучшения Парето с момента ее выпуска. В данной статье мы представляем ModernBERT, внедряя современные оптимизации модели в модели только с кодировщиком и представляя собой значительное улучшение Парето по сравнению с более старыми кодировщиками. Обученные на 2 триллионах токенов с длиной последовательности 8192, модели ModernBERT демонстрируют результаты на уровне современных достижений на большом количестве оценок, охватывающих разнообразные задачи классификации и как одиночный, так и многовекторный поиск в различных областях (включая код). Помимо высокой производительности на этапе вывода, ModernBERT также является самым быстрым и эффективным по памяти кодировщиком и предназначен для вывода на обычных графических процессорах.