LFM2 기술 보고서
LFM2 Technical Report
November 28, 2025
저자: Alexander Amini, Anna Banaszak, Harold Benoit, Arthur Böök, Tarek Dakhran, Song Duong, Alfred Eng, Fernando Fernandes, Marc Härkönen, Anne Harrington, Ramin Hasani, Saniya Karwa, Yuri Khrustalev, Maxime Labonne, Mathias Lechner, Valentine Lechner, Simon Lee, Zetian Li, Noel Loo, Jacob Marks, Edoardo Mosca, Samuel J. Paech, Paul Pak, Rom N. Parnichkun, Alex Quach, Ryan Rogers, Daniela Rus, Nayan Saxena, Bettina Schlager, Tim Seyde, Jimmy T. H. Smith, Aditya Tadimeti, Neehal Tumma
cs.AI
초록
저희는 효율적인 온디바이스 배포와 강력한 태스크 성능을 위해 설계된 Liquid Foundation Models(LFM2) 패밀리를 소개합니다. 에지 장치의 레이턴시 및 메모리 제약 조건 하에서 하드웨어 인 더 루프 아키텍처 탐색을 통해, 게이트된 단순 합성곱과 소수의 그룹화된 쿼리 어텐션 블록을 결합한 컴팩트 하이브리드 백본을 확보하여, 유사 규모 모델 대비 CPU에서 최대 2배 빠른 프리필 및 디코드 속도를 제공합니다. LFM2 패밀리는 350M-8.3B 파라미터 규모를 커버하며, 조밀 모델(350M, 700M, 1.2B, 2.6B)과 mixture-of-experts 변형 모델(총 8.3B, 활성 1.5B)을 포함하며, 모두 32K 컨텍스트 길이를 가집니다. LFM2의 학습 파이프라인은 지원 불일치를 회피하는 완화된 분리형 Top-K 지식 증류 목표, 난이도 순 데이터 구성 커리큘럼 학습, 그리고 지도 미세 조정, 길이 정규화 선호도 최적화, 모델 병합의 3단계 사후 학습 레시피로 구성됩니다. 10-12T 토큰으로 사전 학습된 LFM2 모델은 다양한 벤치마크에서 강력한 성과를 보입니다. 예를 들어, LFM2-2.6B는 IFEval에서 79.56%, GSM8K에서 82.41%를 달성했습니다. 또한 멀티모달 및 검색 변형 모델인 비전-언어 태스크용 LFM2-VL, 음성용 LFM2-Audio, 검색용 LFM2-ColBERT를 구축했습니다. LFM2-VL은 토큰 효율적인 시각 처리 방식을 통해 조정 가능한 정확도-레이턴시 트레이드오프를 지원하며, LFM2-Audio는 오디오 입력/출력 경로를 분리하여 규모가 3배 큰 모델과 경쟁 가능한 실시간 음성 간 상호작용을 가능하게 합니다. LFM2-ColBERT는 쿼리와 문서를 위한 저지연 인코더를 제공하여 다중 언어에 걸친 고성능 검색을 가능하게 합니다. 모든 모델은 ExecuTorch, llama.cpp, vLLM용 오픈 가중치 및 배포 패키지와 함께 공개되어, LFM2가 빠르고 메모리 효율적인 추론과 강력한 태스크 성능이 필요한 에지 애플리케이션을 위한 실용적인 기반이 되도록 합니다.
English
We present LFM2, a family of Liquid Foundation Models designed for efficient on-device deployment and strong task capabilities. Using hardware-in-the-loop architecture search under edge latency and memory constraints, we obtain a compact hybrid backbone that combines gated short convolutions with a small number of grouped query attention blocks, delivering up to 2x faster prefill and decode on CPUs compared to similarly sized models. The LFM2 family covers 350M-8.3B parameters, including dense models (350M, 700M, 1.2B, 2.6B) and a mixture-of-experts variant (8.3B total, 1.5B active), all with 32K context length. LFM2's training pipeline includes a tempered, decoupled Top-K knowledge distillation objective that avoids support mismatch; curriculum learning with difficulty-ordered data; and a three-stage post-training recipe of supervised fine-tuning, length-normalized preference optimization, and model merging. Pre-trained on 10-12T tokens, LFM2 models achieve strong results across diverse benchmarks; for example, LFM2-2.6B reaches 79.56% on IFEval and 82.41% on GSM8K. We further build multimodal and retrieval variants: LFM2-VL for vision-language tasks, LFM2-Audio for speech, and LFM2-ColBERT for retrieval. LFM2-VL supports tunable accuracy-latency tradeoffs via token-efficient visual processing, while LFM2-Audio separates audio input and output pathways to enable real-time speech-to-speech interaction competitive with models 3x larger. LFM2-ColBERT provides a low-latency encoder for queries and documents, enabling high-performance retrieval across multiple languages. All models are released with open weights and deployment packages for ExecuTorch, llama.cpp, and vLLM, making LFM2 a practical base for edge applications that need fast, memory-efficient inference and strong task capabilities.