Rapporto Tecnico LFM2

Abstract

Presentiamo LFM2, una famiglia di Liquid Foundation Models progettati per un'implementazione efficiente su dispositivo e solide capacità operative. Utilizzando una ricerca architetturale hardware-in-the-loop sotto vincoli di latenza edge e memoria, otteniamo un'architettura ibrida compatta che combina convoluzioni corte con gate con un numero ridotto di blocchi di attenzione a query raggruppate, garantendo fino a 2 volte più velocità in fase di prefill e decode su CPU rispetto a modelli di dimensioni simili. La famiglia LFM2 copre un range di 350M-8.3B di parametri, inclusi modelli densi (350M, 700M, 1.2B, 2.6B) e una variante mixture-of-experts (8.3B totali, 1.5B attivi), tutti con lunghezza del contesto di 32K. La pipeline di addestramento di LFM2 include un obiettivo di distillazione della conoscenza Top-K temperata e disaccoppiata che evita mismatch di supporto; un curriculum learning con dati ordinati per difficoltà; e una ricetta post-addestramento in tre fasi: fine-tuning supervisionato, ottimizzazione delle preferenze con lunghezza normalizzata e fusione di modelli. Pre-addestrati su 10-12T di token, i modelli LFM2 raggiungono risultati solidi su benchmark diversificati; ad esempio, LFM2-2.6B raggiunge il 79.56% su IFEval e l'82.41% su GSM8K. Abbiamo inoltre sviluppato varianti multimodali e per retrieval: LFM2-VL per compiti visione-linguaggio, LFM2-Audio per l'audio e LFM2-ColBERT per il retrieval. LFM2-VL supporta compromessi regolabili accuratezza-latenza tramite elaborazione visiva efficiente nei token, mentre LFM2-Audio separa i percorsi di input e output audio per abilitare interazioni speech-to-speech in tempo reale competitive con modelli 3 volte più grandi. LFM2-ColBERT fornisce un encoder a bassa latenza per query e documenti, abilitando retrieval ad alte prestazioni in più lingue. Tutti i modelli sono rilasciati con pesi aperti e pacchetti di deployment per ExecuTorch, llama.cpp e vLLM, rendendo LFM2 una base pratica per applicazioni edge che richiedono inferenza veloce, efficiente in memoria e solide capacità operative.

English

We present LFM2, a family of Liquid Foundation Models designed for efficient on-device deployment and strong task capabilities. Using hardware-in-the-loop architecture search under edge latency and memory constraints, we obtain a compact hybrid backbone that combines gated short convolutions with a small number of grouped query attention blocks, delivering up to 2x faster prefill and decode on CPUs compared to similarly sized models. The LFM2 family covers 350M-8.3B parameters, including dense models (350M, 700M, 1.2B, 2.6B) and a mixture-of-experts variant (8.3B total, 1.5B active), all with 32K context length. LFM2's training pipeline includes a tempered, decoupled Top-K knowledge distillation objective that avoids support mismatch; curriculum learning with difficulty-ordered data; and a three-stage post-training recipe of supervised fine-tuning, length-normalized preference optimization, and model merging. Pre-trained on 10-12T tokens, LFM2 models achieve strong results across diverse benchmarks; for example, LFM2-2.6B reaches 79.56% on IFEval and 82.41% on GSM8K. We further build multimodal and retrieval variants: LFM2-VL for vision-language tasks, LFM2-Audio for speech, and LFM2-ColBERT for retrieval. LFM2-VL supports tunable accuracy-latency tradeoffs via token-efficient visual processing, while LFM2-Audio separates audio input and output pathways to enable real-time speech-to-speech interaction competitive with models 3x larger. LFM2-ColBERT provides a low-latency encoder for queries and documents, enabling high-performance retrieval across multiple languages. All models are released with open weights and deployment packages for ExecuTorch, llama.cpp, and vLLM, making LFM2 a practical base for edge applications that need fast, memory-efficient inference and strong task capabilities.

Rapporto Tecnico LFM2

LFM2 Technical Report

Abstract

Support