ChatPaper.aiChatPaper

Технический отчет LFM2

LFM2 Technical Report

November 28, 2025
Авторы: Alexander Amini, Anna Banaszak, Harold Benoit, Arthur Böök, Tarek Dakhran, Song Duong, Alfred Eng, Fernando Fernandes, Marc Härkönen, Anne Harrington, Ramin Hasani, Saniya Karwa, Yuri Khrustalev, Maxime Labonne, Mathias Lechner, Valentine Lechner, Simon Lee, Zetian Li, Noel Loo, Jacob Marks, Edoardo Mosca, Samuel J. Paech, Paul Pak, Rom N. Parnichkun, Alex Quach, Ryan Rogers, Daniela Rus, Nayan Saxena, Bettina Schlager, Tim Seyde, Jimmy T. H. Smith, Aditya Tadimeti, Neehal Tumma
cs.AI

Аннотация

Мы представляем LFM2 — семейство жидкостных фундаментальных моделей, разработанных для эффективного развертывания на устройствах и мощных возможностей решения задач. Используя поиск архитектуры с обратной связью от оборудования в условиях ограничений задержки и памяти на периферийных устройствах, мы получили компактный гибридный бэкбон, сочетающий короткие свертки с затвором и небольшое количество блоков группового внимания запросов, что обеспечивает до 2-кратного ускорения предзаполнения и декодирования на CPU по сравнению с моделями аналогичного размера. Семейство LFM2 охватывает диапазон от 350 млн до 8,3 млрд параметров, включая плотные модели (350M, 700M, 1,2B, 2,6B) и вариант с ансамблем экспертов (8,3B всего, 1,5B активных), все с длиной контекста 32K. Конвейер обучения LFM2 включает темперированный раздельный объект дистилляции знаний Top-K, избегающий несоответствия поддержки; обучение по учебному плану с данными, упорядоченными по сложности; и трехэтапный рецепт пост-обучения, состоящий из контролируемой тонкой настройки, оптимизации предпочтений с нормализацией длины и слияния моделей. Предварительно обученные на 10–12 трлн токенов, модели LFM2 демонстрируют высокие результаты в различных бенчмарках; например, LFM2-2.6B достигает 79,56% на IFEval и 82,41% на GSM8K. Мы также создали мультимодальные и поисковые варианты: LFM2-VL для задач «зрение-язык», LFM2-Audio для речи и LFM2-ColBERT для поиска. LFM2-VL поддерживает настраиваемый компромисс между точностью и задержкой за счет эффективной обработки визуальных токенов, а LFM2-Audio разделяет пути ввода и вывода аудио для обеспечения интерактивного речевого взаимодействия в реальном времени, конкурируя с моделями в 3 раза крупнее. LFM2-ColBERT предоставляет низкозатратный энкодер для запросов и документов, обеспечивая высокопроизводительный поиск на нескольких языках. Все модели выпускаются с открытыми весами и пакетами развертывания для ExecuTorch, llama.cpp и vLLM, что делает LFM2 практичной основой для периферийных приложений, требующих быстрого, эффективного по памяти вывода и мощных возможностей решения задач.
English
We present LFM2, a family of Liquid Foundation Models designed for efficient on-device deployment and strong task capabilities. Using hardware-in-the-loop architecture search under edge latency and memory constraints, we obtain a compact hybrid backbone that combines gated short convolutions with a small number of grouped query attention blocks, delivering up to 2x faster prefill and decode on CPUs compared to similarly sized models. The LFM2 family covers 350M-8.3B parameters, including dense models (350M, 700M, 1.2B, 2.6B) and a mixture-of-experts variant (8.3B total, 1.5B active), all with 32K context length. LFM2's training pipeline includes a tempered, decoupled Top-K knowledge distillation objective that avoids support mismatch; curriculum learning with difficulty-ordered data; and a three-stage post-training recipe of supervised fine-tuning, length-normalized preference optimization, and model merging. Pre-trained on 10-12T tokens, LFM2 models achieve strong results across diverse benchmarks; for example, LFM2-2.6B reaches 79.56% on IFEval and 82.41% on GSM8K. We further build multimodal and retrieval variants: LFM2-VL for vision-language tasks, LFM2-Audio for speech, and LFM2-ColBERT for retrieval. LFM2-VL supports tunable accuracy-latency tradeoffs via token-efficient visual processing, while LFM2-Audio separates audio input and output pathways to enable real-time speech-to-speech interaction competitive with models 3x larger. LFM2-ColBERT provides a low-latency encoder for queries and documents, enabling high-performance retrieval across multiple languages. All models are released with open weights and deployment packages for ExecuTorch, llama.cpp, and vLLM, making LFM2 a practical base for edge applications that need fast, memory-efficient inference and strong task capabilities.
PDF281December 3, 2025