Falcon-H1: Uma Família de Modelos de Linguagem com Cabeças Híbridas Redefinindo Eficiência e Desempenho
Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance
July 30, 2025
Autores: Jingwei Zuo, Maksim Velikanov, Ilyas Chahed, Younes Belkada, Dhia Eddine Rhayem, Guillaume Kunsch, Hakim Hacid, Hamza Yous, Brahim Farhat, Ibrahim Khadraoui, Mugariya Farooq, Giulia Campesan, Ruxandra Cojocaru, Yasser Djilali, Shi Hu, Iheb Chaabane, Puneesh Khanna, Mohamed El Amine Seddik, Ngoc Dung Huynh, Phuc Le Khac, Leen AlQadi, Billel Mokeddem, Mohamed Chami, Abdalgader Abubaker, Mikhail Lubinets, Kacper Piskorski, Slim Frikha
cs.AI
Resumo
Neste relatório, apresentamos o Falcon-H1, uma nova série de modelos de linguagem de grande escala (LLMs) com designs de arquitetura híbrida otimizados para alto desempenho e eficiência em diversos casos de uso. Diferente dos modelos Falcon anteriores, construídos exclusivamente com arquiteturas Transformer ou Mamba, o Falcon-H1 adota uma abordagem híbrida paralela que combina a atenção baseada em Transformer com Modelos de Espaço de Estados (SSMs), conhecidos por sua memória de contexto longo e eficiência computacional superiores. Revisitamos sistematicamente o design do modelo, a estratégia de dados e a dinâmica de treinamento, questionando práticas convencionais do campo. O Falcon-H1 é lançado em múltiplas configurações, incluindo variantes base e ajustadas por instrução com 0,5B, 1,5B, 1,5B-deep, 3B, 7B e 34B de parâmetros. Modelos quantizados ajustados por instrução também estão disponíveis, totalizando mais de 30 checkpoints no Hugging Face Hub. Os modelos Falcon-H1 demonstram desempenho de ponta e eficiência excepcional em termos de parâmetros e treinamento. O carro-chefe Falcon-H1-34B iguala ou supera modelos de até 70B de escala, como Qwen3-32B, Qwen2.5-72B e Llama3.3-70B, utilizando menos parâmetros e dados. Modelos menores mostram tendências similares: o Falcon-H1-1.5B-Deep rivaliza com os principais modelos de 7B-10B atuais, e o Falcon-H1-0.5B tem desempenho comparável a modelos típicos de 7B de 2024. Esses modelos se destacam em raciocínio, matemática, tarefas multilingues, seguimento de instruções e conhecimento científico. Com suporte para até 256K tokens de contexto e 18 idiomas, o Falcon-H1 é adequado para uma ampla gama de aplicações. Todos os modelos são lançados sob uma licença de código aberto permissiva, reforçando nosso compromisso com pesquisa em IA acessível e impactante.
English
In this report, we introduce Falcon-H1, a new series of large language models
(LLMs) featuring hybrid architecture designs optimized for both high
performance and efficiency across diverse use cases. Unlike earlier Falcon
models built solely on Transformer or Mamba architectures, Falcon-H1 adopts a
parallel hybrid approach that combines Transformer-based attention with State
Space Models (SSMs), known for superior long-context memory and computational
efficiency. We systematically revisited model design, data strategy, and
training dynamics, challenging conventional practices in the field. Falcon-H1
is released in multiple configurations, including base and instruction-tuned
variants at 0.5B, 1.5B, 1.5B-deep, 3B, 7B, and 34B parameters. Quantized
instruction-tuned models are also available, totaling over 30 checkpoints on
Hugging Face Hub. Falcon-H1 models demonstrate state-of-the-art performance and
exceptional parameter and training efficiency. The flagship Falcon-H1-34B
matches or outperforms models up to 70B scale, such as Qwen3-32B, Qwen2.5-72B,
and Llama3.3-70B, while using fewer parameters and less data. Smaller models
show similar trends: the Falcon-H1-1.5B-Deep rivals current leading 7B-10B
models, and Falcon-H1-0.5B performs comparably to typical 7B models from 2024.
These models excel across reasoning, mathematics, multilingual tasks,
instruction following, and scientific knowledge. With support for up to 256K
context tokens and 18 languages, Falcon-H1 is suitable for a wide range of
applications. All models are released under a permissive open-source license,
underscoring our commitment to accessible and impactful AI research.