ChatPaper.aiChatPaper

Falcon-H1R: Erweiterung der Grenzen des Schließens mit einem Hybridmodell für effiziente Skalierung zur Testzeit

Falcon-H1R: Pushing the Reasoning Frontiers with a Hybrid Model for Efficient Test-Time Scaling

January 5, 2026
papers.authors: Falcon LLM Team, Iheb Chaabane, Puneesh Khanna, Suhail Mohmad, Slim Frikha, Shi Hu, Abdalgader Abubaker, Reda Alami, Mikhail Lubinets, Mohamed El Amine Seddik, Hakim Hacid
cs.AI

papers.abstract

Diese Arbeit stellt Falcon-H1R vor, ein auf Reasoning optimiertes Modell mit 7B Parametern, das die Machbarkeit wettbewerbsfähiger Reasoning-Leistungen mit kleinen Sprachmodellen (SLMs) demonstriert. Falcon-H1R zeichnet sich durch seine Parameter-Effizienz aus und erreicht konsistent vergleichbare oder bessere Ergebnisse als State-of-the-Art-Reasoning-Modelle, die zwei- bis siebenmal größer sind, über eine Vielzahl von reasoning-intensiven Benchmarks hinweg. Diese Ergebnisse unterstreichen die Bedeutung einer sorgfältigen Datenkuratierung und zielgerichteter Trainingsstrategien (durch effizientes SFT und RL-Scaling) für signifikante Leistungssteigerungen ohne Vergrößerung des Modells. Darüber hinaus erweitert Falcon-H1R die 3D-Grenzen der Reasoning-Effizienz durch die Kombination von schnellerer Inferenz (dank seines hybrid-parallelen Architekturdesigns), Token-Effizienz und höherer Genauigkeit. Diese einzigartige Mischung macht Falcon-H1R-7B zu einer praktischen Basis für die Skalierung fortschrittlicher Reasoning-Systeme, insbesondere in Szenarien, die eine umfangreiche Generierung von Gedankenketten (Chain-of-Thoughts) und paralleles Test-Time-Scaling erfordern. Unter Nutzung des kürzlich eingeführten DeepConf-Ansatzes erzielt Falcon-H1R eine state-of-the-art Test-Time-Scaling-Effizienz und bietet erhebliche Verbesserungen bei Genauigkeit und Rechenkosten. Folglich zeigt Falcon-H1R, dass kompakte Modelle durch gezieltes Modelltraining und architektonische Entscheidungen robuste und skalierbare Reasoning-Leistung erbringen können.
English
This work introduces Falcon-H1R, a 7B-parameter reasoning-optimized model that establishes the feasibility of achieving competitive reasoning performance with small language models (SLMs). Falcon-H1R stands out for its parameter efficiency, consistently matching or outperforming SOTA reasoning models that are 2times to 7times larger across a variety of reasoning-intensive benchmarks. These results underscore the importance of careful data curation and targeted training strategies (via both efficient SFT and RL scaling) in delivering significant performance gains without increasing model size. Furthermore, Falcon-H1R advances the 3D limits of reasoning efficiency by combining faster inference (through its hybrid-parallel architecture design), token efficiency, and higher accuracy. This unique blend makes Falcon-H1R-7B a practical backbone for scaling advanced reasoning systems, particularly in scenarios requiring extensive chain-of-thoughts generation and parallel test-time scaling. Leveraging the recently introduced DeepConf approach, Falcon-H1R achieves state-of-the-art test-time scaling efficiency, offering substantial improvements in both accuracy and computational cost. As a result, Falcon-H1R demonstrates that compact models, through targeted model training and architectural choices, can deliver robust and scalable reasoning performance.
PDF120January 7, 2026