ChatPaper.aiChatPaper

Rapport Technique LFM2

LFM2 Technical Report

November 28, 2025
papers.authors: Alexander Amini, Anna Banaszak, Harold Benoit, Arthur Böök, Tarek Dakhran, Song Duong, Alfred Eng, Fernando Fernandes, Marc Härkönen, Anne Harrington, Ramin Hasani, Saniya Karwa, Yuri Khrustalev, Maxime Labonne, Mathias Lechner, Valentine Lechner, Simon Lee, Zetian Li, Noel Loo, Jacob Marks, Edoardo Mosca, Samuel J. Paech, Paul Pak, Rom N. Parnichkun, Alex Quach, Ryan Rogers, Daniela Rus, Nayan Saxena, Bettina Schlager, Tim Seyde, Jimmy T. H. Smith, Aditya Tadimeti, Neehal Tumma
cs.AI

papers.abstract

Nous présentons LFM2, une famille de modèles de fondation liquide conçus pour un déploiement efficace sur appareil et de solides capacités multitâches. En utilisant une recherche d'architecture en boucle fermée avec des contraintes matérielles de latence et de mémoire en environnement edge, nous obtenons un backbone hybride compact qui combine des convolutions courtes à porte avec un petit nombre de blocs d'attention à requêtes groupées, offrant jusqu'à 2 fois plus de rapidité en préremplissage et décodage sur CPU par rapport à des modèles de taille similaire. La famille LFM2 couvre des paramètres de 350M à 8,3B, incluant des modèles denses (350M, 700M, 1,2B, 2,6B) et une variante à mixture d'experts (8,3B totaux, 1,5B actifs), tous avec une longueur de contexte de 32K. Le pipeline d'entraînement de LFM2 intègre un objectif de distillation de connaissances Top-K tempéré et découplé qui évite les incompatibilités de support ; un apprentissage curriculaire avec des données ordonnées par difficulté ; et une recette post-entraînement en trois étapes : fine-tuning supervisé, optimisation des préférences à longueur normalisée et fusion de modèles. Pré-entraînés sur 10 à 12 billions de tokens, les modèles LFM2 obtiennent de solides résultats sur divers benchmarks ; par exemple, LFM2-2.6B atteint 79,56 % sur IFEval et 82,41 % sur GSM8K. Nous développons également des variantes multimodales et de recherche : LFM2-VL pour les tâches vision-langage, LFM2-Audio pour la parole et LFM2-ColBERT pour la recherche d'information. LFM2-VL prend en charge des compromis précision-latence ajustables via un traitement visuel économe en tokens, tandis que LFM2-Audio sépare les voies d'entrée et de sortie audio pour permettre une interaction parole-à-parole en temps réel, rivalisant avec des modèles 3 fois plus grands. LFM2-ColBERT fournit un encodeur à faible latence pour les requêtes et documents, permettant une recherche haute performance multilingue. Tous les modèles sont publiés avec des poids ouverts et des packages de déploiement pour ExecuTorch, llama.cpp et vLLM, faisant de LFM2 une base pratique pour les applications edge nécessitant une inférence rapide, économe en mémoire et de solides capacités multitâches.
English
We present LFM2, a family of Liquid Foundation Models designed for efficient on-device deployment and strong task capabilities. Using hardware-in-the-loop architecture search under edge latency and memory constraints, we obtain a compact hybrid backbone that combines gated short convolutions with a small number of grouped query attention blocks, delivering up to 2x faster prefill and decode on CPUs compared to similarly sized models. The LFM2 family covers 350M-8.3B parameters, including dense models (350M, 700M, 1.2B, 2.6B) and a mixture-of-experts variant (8.3B total, 1.5B active), all with 32K context length. LFM2's training pipeline includes a tempered, decoupled Top-K knowledge distillation objective that avoids support mismatch; curriculum learning with difficulty-ordered data; and a three-stage post-training recipe of supervised fine-tuning, length-normalized preference optimization, and model merging. Pre-trained on 10-12T tokens, LFM2 models achieve strong results across diverse benchmarks; for example, LFM2-2.6B reaches 79.56% on IFEval and 82.41% on GSM8K. We further build multimodal and retrieval variants: LFM2-VL for vision-language tasks, LFM2-Audio for speech, and LFM2-ColBERT for retrieval. LFM2-VL supports tunable accuracy-latency tradeoffs via token-efficient visual processing, while LFM2-Audio separates audio input and output pathways to enable real-time speech-to-speech interaction competitive with models 3x larger. LFM2-ColBERT provides a low-latency encoder for queries and documents, enabling high-performance retrieval across multiple languages. All models are released with open weights and deployment packages for ExecuTorch, llama.cpp, and vLLM, making LFM2 a practical base for edge applications that need fast, memory-efficient inference and strong task capabilities.
PDF281December 3, 2025