Relatório Técnico LFM2
LFM2 Technical Report
November 28, 2025
Autores: Alexander Amini, Anna Banaszak, Harold Benoit, Arthur Böök, Tarek Dakhran, Song Duong, Alfred Eng, Fernando Fernandes, Marc Härkönen, Anne Harrington, Ramin Hasani, Saniya Karwa, Yuri Khrustalev, Maxime Labonne, Mathias Lechner, Valentine Lechner, Simon Lee, Zetian Li, Noel Loo, Jacob Marks, Edoardo Mosca, Samuel J. Paech, Paul Pak, Rom N. Parnichkun, Alex Quach, Ryan Rogers, Daniela Rus, Nayan Saxena, Bettina Schlager, Tim Seyde, Jimmy T. H. Smith, Aditya Tadimeti, Neehal Tumma
cs.AI
Resumo
Apresentamos a LFM2, uma família de Modelos de Base Líquida (Liquid Foundation Models) projetada para implantação eficiente em dispositivos e fortes capacidades de tarefas. Utilizando uma busca de arquitetura em loop com hardware sob restrições de latência de borda e memória, obtivemos uma estrutura híbrida compacta que combina convoluções curtas com portas (gated) com um pequeno número de blocos de atenção de consulta agrupada (grouped query attention), proporcionando até 2x mais velocidade no preenchimento prévio (prefill) e na decodificação em CPUs em comparação com modelos de tamanho similar. A família LFM2 abrange parâmetros de 350M a 8,3B, incluindo modelos densos (350M, 700M, 1,2B, 2,6B) e uma variante de mistura de especialistas (8,3B totais, 1,5B ativos), todos com comprimento de contexto de 32K. O pipeline de treinamento da LFM2 inclui um objetivo de destilação de conhecimento Top-K temperado e desacoplado que evita incompatibilidade de suporte; aprendizagem por currículo com dados ordenados por dificuldade; e uma receita de pós-treinamento em três etapas: ajuste fino supervisionado, otimização de preferência com normalização de comprimento e fusão de modelos. Pré-treinados em 10-12 trilhões de tokens, os modelos LFM2 alcançam resultados sólidos em diversos benchmarks; por exemplo, o LFM2-2.6B atinge 79,56% no IFEval e 82,41% no GSM8K. Desenvolvemos ainda variantes multimodal e de recuperação: LFM2-VL para tarefas de visão e linguagem, LFM2-Audio para áudio e LFM2-ColBERT para recuperação de informação. O LFM2-VL suporta compensações ajustáveis entre precisão e latência através de processamento visual eficiente em tokens, enquanto o LFM2-Audio separa os caminhos de entrada e saída de áudio para permitir interação de fala para fala em tempo real, competitiva com modelos 3 vezes maiores. O LFM2-ColBERT fornece um codificador de baixa latência para consultas e documentos, permitindo recuperação de alto desempenho em vários idiomas. Todos os modelos são lançados com pesos abertos e pacotes de implantação para ExecuTorch, llama.cpp e vLLM, tornando a LFM2 uma base prática para aplicações de borda que necessitam de inferência rápida, eficiente em memória e com fortes capacidades de tarefa.
English
We present LFM2, a family of Liquid Foundation Models designed for efficient on-device deployment and strong task capabilities. Using hardware-in-the-loop architecture search under edge latency and memory constraints, we obtain a compact hybrid backbone that combines gated short convolutions with a small number of grouped query attention blocks, delivering up to 2x faster prefill and decode on CPUs compared to similarly sized models. The LFM2 family covers 350M-8.3B parameters, including dense models (350M, 700M, 1.2B, 2.6B) and a mixture-of-experts variant (8.3B total, 1.5B active), all with 32K context length. LFM2's training pipeline includes a tempered, decoupled Top-K knowledge distillation objective that avoids support mismatch; curriculum learning with difficulty-ordered data; and a three-stage post-training recipe of supervised fine-tuning, length-normalized preference optimization, and model merging. Pre-trained on 10-12T tokens, LFM2 models achieve strong results across diverse benchmarks; for example, LFM2-2.6B reaches 79.56% on IFEval and 82.41% on GSM8K. We further build multimodal and retrieval variants: LFM2-VL for vision-language tasks, LFM2-Audio for speech, and LFM2-ColBERT for retrieval. LFM2-VL supports tunable accuracy-latency tradeoffs via token-efficient visual processing, while LFM2-Audio separates audio input and output pathways to enable real-time speech-to-speech interaction competitive with models 3x larger. LFM2-ColBERT provides a low-latency encoder for queries and documents, enabling high-performance retrieval across multiple languages. All models are released with open weights and deployment packages for ExecuTorch, llama.cpp, and vLLM, making LFM2 a practical base for edge applications that need fast, memory-efficient inference and strong task capabilities.