Technisch Rapport LFM2

Samenvatting

Wij presenteren LFM2, een familie van Liquid Foundation Models die ontworpen zijn voor efficiënte implementatie op apparaten en sterke taakcapaciteiten. Door gebruik te maken van hardware-in-the-loop architectuurzoektochten onder randapparaatvertragings- en geheugenbeperkingen, verkrijgen we een compacte hybride backbone die gegatede korte convoluties combineert met een klein aantal grouped query attention-blokken, wat tot 2x snellere prefill- en decodesnelheden op CPU's oplevert in vergelijking met modellen van vergelijkbare grootte. De LFM2-familie omvat 350M-8,3B parameters, inclusief dense modellen (350M, 700M, 1,2B, 2,6B) en een mixture-of-experts variant (8,3B totaal, 1,5B actief), allemaal met een contextlengte van 32K. De trainingspijplijn van LFM2 omvat een getemperd, ontkoppeld Top-K knowledge distillation-doel dat support mismatch vermijdt; curriculum learning met op moeilijkheidsgraad geordende data; en een driestappen post-training recept van supervised fine-tuning, length-normalized preference optimization en model merging. Voorgetraind op 10-12T tokens behalen LFM2-modellen sterke resultaten op diverse benchmarks; LFM2-2,6B bereikt bijvoorbeeld 79,56% op IFEval en 82,41% op GSM8K. We ontwikkelden verder multimodale en retrieval-varianten: LFM2-VL voor vision-language taken, LFM2-Audio voor spraak, en LFM2-ColBERT voor retrieval. LFM2-VL ondersteunt instelbare nauwkeurigheid-vertraging afwegingen via token-efficiënte visuele verwerking, terwijl LFM2-Audio audio-invoer- en uitvoerpaden scheidt om real-time spraak-naar-spraak interactie mogelijk te maken die concurreert met modellen die 3x groter zijn. LFM2-ColBERT biedt een low-latency encoder voor queries en documenten, waardoor hoogwaardige retrieval in meerdere talen mogelijk wordt. Alle modellen worden vrijgegeven met open gewichten en implementatiepakketten voor ExecuTorch, llama.cpp en vLLM, wat LFM2 een praktische basis maakt voor edge-toepassingen die snelle, geheugenefficiënte inferentie en sterke taakcapaciteiten nodig hebben.

English

We present LFM2, a family of Liquid Foundation Models designed for efficient on-device deployment and strong task capabilities. Using hardware-in-the-loop architecture search under edge latency and memory constraints, we obtain a compact hybrid backbone that combines gated short convolutions with a small number of grouped query attention blocks, delivering up to 2x faster prefill and decode on CPUs compared to similarly sized models. The LFM2 family covers 350M-8.3B parameters, including dense models (350M, 700M, 1.2B, 2.6B) and a mixture-of-experts variant (8.3B total, 1.5B active), all with 32K context length. LFM2's training pipeline includes a tempered, decoupled Top-K knowledge distillation objective that avoids support mismatch; curriculum learning with difficulty-ordered data; and a three-stage post-training recipe of supervised fine-tuning, length-normalized preference optimization, and model merging. Pre-trained on 10-12T tokens, LFM2 models achieve strong results across diverse benchmarks; for example, LFM2-2.6B reaches 79.56% on IFEval and 82.41% on GSM8K. We further build multimodal and retrieval variants: LFM2-VL for vision-language tasks, LFM2-Audio for speech, and LFM2-ColBERT for retrieval. LFM2-VL supports tunable accuracy-latency tradeoffs via token-efficient visual processing, while LFM2-Audio separates audio input and output pathways to enable real-time speech-to-speech interaction competitive with models 3x larger. LFM2-ColBERT provides a low-latency encoder for queries and documents, enabling high-performance retrieval across multiple languages. All models are released with open weights and deployment packages for ExecuTorch, llama.cpp, and vLLM, making LFM2 a practical base for edge applications that need fast, memory-efficient inference and strong task capabilities.

Technisch Rapport LFM2

LFM2 Technical Report

Samenvatting

Support