ChatPaper.aiChatPaper

Rapporto Tecnico LFM2

LFM2 Technical Report

November 28, 2025
Autori: Alexander Amini, Anna Banaszak, Harold Benoit, Arthur Böök, Tarek Dakhran, Song Duong, Alfred Eng, Fernando Fernandes, Marc Härkönen, Anne Harrington, Ramin Hasani, Saniya Karwa, Yuri Khrustalev, Maxime Labonne, Mathias Lechner, Valentine Lechner, Simon Lee, Zetian Li, Noel Loo, Jacob Marks, Edoardo Mosca, Samuel J. Paech, Paul Pak, Rom N. Parnichkun, Alex Quach, Ryan Rogers, Daniela Rus, Nayan Saxena, Bettina Schlager, Tim Seyde, Jimmy T. H. Smith, Aditya Tadimeti, Neehal Tumma
cs.AI

Abstract

Presentiamo LFM2, una famiglia di Liquid Foundation Models progettati per un'implementazione efficiente su dispositivo e solide capacità operative. Utilizzando una ricerca architetturale hardware-in-the-loop sotto vincoli di latenza edge e memoria, otteniamo un'architettura ibrida compatta che combina convoluzioni corte con gate con un numero ridotto di blocchi di attenzione a query raggruppate, garantendo fino a 2 volte più velocità in fase di prefill e decode su CPU rispetto a modelli di dimensioni simili. La famiglia LFM2 copre un range di 350M-8.3B di parametri, inclusi modelli densi (350M, 700M, 1.2B, 2.6B) e una variante mixture-of-experts (8.3B totali, 1.5B attivi), tutti con lunghezza del contesto di 32K. La pipeline di addestramento di LFM2 include un obiettivo di distillazione della conoscenza Top-K temperata e disaccoppiata che evita mismatch di supporto; un curriculum learning con dati ordinati per difficoltà; e una ricetta post-addestramento in tre fasi: fine-tuning supervisionato, ottimizzazione delle preferenze con lunghezza normalizzata e fusione di modelli. Pre-addestrati su 10-12T di token, i modelli LFM2 raggiungono risultati solidi su benchmark diversificati; ad esempio, LFM2-2.6B raggiunge il 79.56% su IFEval e l'82.41% su GSM8K. Abbiamo inoltre sviluppato varianti multimodali e per retrieval: LFM2-VL per compiti visione-linguaggio, LFM2-Audio per l'audio e LFM2-ColBERT per il retrieval. LFM2-VL supporta compromessi regolabili accuratezza-latenza tramite elaborazione visiva efficiente nei token, mentre LFM2-Audio separa i percorsi di input e output audio per abilitare interazioni speech-to-speech in tempo reale competitive con modelli 3 volte più grandi. LFM2-ColBERT fornisce un encoder a bassa latenza per query e documenti, abilitando retrieval ad alte prestazioni in più lingue. Tutti i modelli sono rilasciati con pesi aperti e pacchetti di deployment per ExecuTorch, llama.cpp e vLLM, rendendo LFM2 una base pratica per applicazioni edge che richiedono inferenza veloce, efficiente in memoria e solide capacità operative.
English
We present LFM2, a family of Liquid Foundation Models designed for efficient on-device deployment and strong task capabilities. Using hardware-in-the-loop architecture search under edge latency and memory constraints, we obtain a compact hybrid backbone that combines gated short convolutions with a small number of grouped query attention blocks, delivering up to 2x faster prefill and decode on CPUs compared to similarly sized models. The LFM2 family covers 350M-8.3B parameters, including dense models (350M, 700M, 1.2B, 2.6B) and a mixture-of-experts variant (8.3B total, 1.5B active), all with 32K context length. LFM2's training pipeline includes a tempered, decoupled Top-K knowledge distillation objective that avoids support mismatch; curriculum learning with difficulty-ordered data; and a three-stage post-training recipe of supervised fine-tuning, length-normalized preference optimization, and model merging. Pre-trained on 10-12T tokens, LFM2 models achieve strong results across diverse benchmarks; for example, LFM2-2.6B reaches 79.56% on IFEval and 82.41% on GSM8K. We further build multimodal and retrieval variants: LFM2-VL for vision-language tasks, LFM2-Audio for speech, and LFM2-ColBERT for retrieval. LFM2-VL supports tunable accuracy-latency tradeoffs via token-efficient visual processing, while LFM2-Audio separates audio input and output pathways to enable real-time speech-to-speech interaction competitive with models 3x larger. LFM2-ColBERT provides a low-latency encoder for queries and documents, enabling high-performance retrieval across multiple languages. All models are released with open weights and deployment packages for ExecuTorch, llama.cpp, and vLLM, making LFM2 a practical base for edge applications that need fast, memory-efficient inference and strong task capabilities.
PDF281December 3, 2025