Informe Técnico LFM2

Resumen

Presentamos LFM2, una familia de Modelos de Fundación Líquidos diseñados para implementación eficiente en dispositivos y sólidas capacidades multitarea. Mediante búsqueda de arquitectura con hardware en el bucle bajo restricciones de latencia y memoria periféricas, obtenemos un backbone híbrido compacto que combina convoluciones cortas con compuertas con un número reducido de bloques de atención de consultas agrupadas, logrando hasta 2x más velocidad en prellenado y decodificación en CPUs comparado con modelos de tamaño similar. La familia LFM2 abarca 350M-8.3B parámetros, incluyendo modelos densos (350M, 700M, 1.2B, 2.6B) y una variante de mezcla de expertos (8.3B totales, 1.5B activos), todos con longitud de contexto de 32K. La pipeline de entrenamiento de LFM2 incluye un objetivo de destilación de conocimiento Top-K templado y desacoplado que evita incompatibilidad de soporte; aprendizaje curricular con datos ordenados por dificultad; y una receta de post-entrenamiento en tres etapas: ajuste fino supervisado, optimización de preferencias con longitud normalizada y fusión de modelos. Preentrenados en 10-12T tokens, los modelos LFM2 logran resultados sólidos en diversos benchmarks; por ejemplo, LFM2-2.6B alcanza 79.56% en IFEval y 82.41% en GSM8K. Desarrollamos además variantes multimodales y de recuperación: LFM2-VL para tareas visión-lenguaje, LFM2-Audio para audio, y LFM2-ColBERT para recuperación. LFM2-VL soporta compensaciones ajustables de precisión-latencia mediante procesamiento visual eficiente en tokens, mientras LFM2-Audio separa las vías de entrada y salida de audio para permitir interacción voz-a-voz en tiempo real competitiva con modelos 3x más grandes. LFM2-ColBERT proporciona un codificador de baja latencia para consultas y documentos, permitiendo recuperación de alto rendimiento en múltiples idiomas. Todos los modelos se publican con pesos abiertos y paquetes de despliegue para ExecuTorch, llama.cpp y vLLM, haciendo de LFM2 una base práctica para aplicaciones periféricas que requieren inferencia rápida, eficiente en memoria y sólidas capacidades multitarea.

English

We present LFM2, a family of Liquid Foundation Models designed for efficient on-device deployment and strong task capabilities. Using hardware-in-the-loop architecture search under edge latency and memory constraints, we obtain a compact hybrid backbone that combines gated short convolutions with a small number of grouped query attention blocks, delivering up to 2x faster prefill and decode on CPUs compared to similarly sized models. The LFM2 family covers 350M-8.3B parameters, including dense models (350M, 700M, 1.2B, 2.6B) and a mixture-of-experts variant (8.3B total, 1.5B active), all with 32K context length. LFM2's training pipeline includes a tempered, decoupled Top-K knowledge distillation objective that avoids support mismatch; curriculum learning with difficulty-ordered data; and a three-stage post-training recipe of supervised fine-tuning, length-normalized preference optimization, and model merging. Pre-trained on 10-12T tokens, LFM2 models achieve strong results across diverse benchmarks; for example, LFM2-2.6B reaches 79.56% on IFEval and 82.41% on GSM8K. We further build multimodal and retrieval variants: LFM2-VL for vision-language tasks, LFM2-Audio for speech, and LFM2-ColBERT for retrieval. LFM2-VL supports tunable accuracy-latency tradeoffs via token-efficient visual processing, while LFM2-Audio separates audio input and output pathways to enable real-time speech-to-speech interaction competitive with models 3x larger. LFM2-ColBERT provides a low-latency encoder for queries and documents, enabling high-performance retrieval across multiple languages. All models are released with open weights and deployment packages for ExecuTorch, llama.cpp, and vLLM, making LFM2 a practical base for edge applications that need fast, memory-efficient inference and strong task capabilities.

Informe Técnico LFM2

LFM2 Technical Report

Resumen

Support