Falcon-H1R : Repousser les frontières du raisonnement avec un modèle hybride pour une mise à l'échelle efficace au moment du test
Falcon-H1R: Pushing the Reasoning Frontiers with a Hybrid Model for Efficient Test-Time Scaling
January 5, 2026
papers.authors: Falcon LLM Team, Iheb Chaabane, Puneesh Khanna, Suhail Mohmad, Slim Frikha, Shi Hu, Abdalgader Abubaker, Reda Alami, Mikhail Lubinets, Mohamed El Amine Seddik, Hakim Hacid
cs.AI
papers.abstract
Ce travail présente Falcon-H1R, un modèle de 7 milliards de paramètres optimisé pour le raisonnement, qui établit la faisabilité d'atteindre des performances compétitives en raisonnement avec des petits modèles de langage (SLM). Falcon-H1R se distingue par son efficacité paramétrique, égalant ou surpassant de manière constante les modèles de raisonnement à l'état de l'art (SOTA) qui sont 2 à 7 fois plus grands sur une variété de benchmarks intensifs en raisonnement. Ces résultats soulignent l'importance d'une curation minutieuse des données et de stratégies d'entraînement ciblées (via un SFT efficace et une mise à l'échelle par RL) pour obtenir des gains de performance significatifs sans augmenter la taille du modèle. De plus, Falcon-H1R repousse les limites 3D de l'efficacité du raisonnement en combinant une inférence plus rapide (grâce à sa conception architecturale hybride-parallèle), une efficacité des tokens et une plus grande précision. Cette combinaison unique fait de Falcon-H1R-7B une colonne vertébrale pratique pour la mise à l'échelle de systèmes de raisonnement avancés, en particulier dans les scénarios nécessitant une génération extensive de chaînes de pensée (chain-of-thoughts) et une mise à l'échelle parallèle au moment du test. En tirant parti de l'approche DeepConf récemment introduite, Falcon-H1R atteint une efficacité de mise à l'échelle au moment du test à la pointe de l'état de l'art, offrant des améliorations substantielles en termes de précision et de coût computationnel. Par conséquent, Falcon-H1R démontre que des modèles compacts, grâce à un entraînement ciblé et à des choix architecturaux appropriés, peuvent offrir des performances de raisonnement robustes et évolutives.
English
This work introduces Falcon-H1R, a 7B-parameter reasoning-optimized model that establishes the feasibility of achieving competitive reasoning performance with small language models (SLMs). Falcon-H1R stands out for its parameter efficiency, consistently matching or outperforming SOTA reasoning models that are 2times to 7times larger across a variety of reasoning-intensive benchmarks. These results underscore the importance of careful data curation and targeted training strategies (via both efficient SFT and RL scaling) in delivering significant performance gains without increasing model size. Furthermore, Falcon-H1R advances the 3D limits of reasoning efficiency by combining faster inference (through its hybrid-parallel architecture design), token efficiency, and higher accuracy. This unique blend makes Falcon-H1R-7B a practical backbone for scaling advanced reasoning systems, particularly in scenarios requiring extensive chain-of-thoughts generation and parallel test-time scaling. Leveraging the recently introduced DeepConf approach, Falcon-H1R achieves state-of-the-art test-time scaling efficiency, offering substantial improvements in both accuracy and computational cost. As a result, Falcon-H1R demonstrates that compact models, through targeted model training and architectural choices, can deliver robust and scalable reasoning performance.