ChatPaper.aiChatPaper

Falcon-H1R:効率的なテスト時スケーリングを実現するハイブリッドモデルによる推論フロンティアの拡大

Falcon-H1R: Pushing the Reasoning Frontiers with a Hybrid Model for Efficient Test-Time Scaling

January 5, 2026
著者: Falcon LLM Team, Iheb Chaabane, Puneesh Khanna, Suhail Mohmad, Slim Frikha, Shi Hu, Abdalgader Abubaker, Reda Alami, Mikhail Lubinets, Mohamed El Amine Seddik, Hakim Hacid
cs.AI

要旨

本論文では、7Bパラメータの推論最適化モデルFalcon-H1Rを提案し、小型言語モデル(SLM)でも競争力のある推論性能を実現できる可能性を示す。Falcon-H1Rはパラメータ効率に優れ、様々な推論集中ベンチマークにおいて、2倍から7倍大きい最先端推論モデルに匹敵または凌駕する性能を一貫して発揮する。これらの結果は、モデルサイズを増大させずに大幅な性能向上をもたらすためには、慎重なデータ選別と標的型トレーニング戦略(効率的なSFTとRLスケーリングの両方による)が重要であることを裏付けている。さらにFalcon-H1Rは、ハイブリッド並列アーキテクチャ設計による高速推論、トークン効率、高精度を組み合わせることで、推論効率の3次元的限界を推進する。この独自の融合により、Falcon-H1R-7Bは大規模な連鎖思考生成と並列テスト時スケーリングを要するシナリオにおいて、先進的な推論システムをスケールする実用的な基盤モデルとなっている。最近導入されたDeepConfアプローチを活用することで、Falcon-H1Rは最先端のテスト時スケーリング効率を達成し、精度と計算コストの両面で大幅な改善を実現している。こうした成果により、Falcon-H1Rは標的型モデルトレーニングとアーキテクチャ選択を通じて、コンパクトモデルが堅牢かつスケーラブルな推論性能を提供できることを実証している。
English
This work introduces Falcon-H1R, a 7B-parameter reasoning-optimized model that establishes the feasibility of achieving competitive reasoning performance with small language models (SLMs). Falcon-H1R stands out for its parameter efficiency, consistently matching or outperforming SOTA reasoning models that are 2times to 7times larger across a variety of reasoning-intensive benchmarks. These results underscore the importance of careful data curation and targeted training strategies (via both efficient SFT and RL scaling) in delivering significant performance gains without increasing model size. Furthermore, Falcon-H1R advances the 3D limits of reasoning efficiency by combining faster inference (through its hybrid-parallel architecture design), token efficiency, and higher accuracy. This unique blend makes Falcon-H1R-7B a practical backbone for scaling advanced reasoning systems, particularly in scenarios requiring extensive chain-of-thoughts generation and parallel test-time scaling. Leveraging the recently introduced DeepConf approach, Falcon-H1R achieves state-of-the-art test-time scaling efficiency, offering substantial improvements in both accuracy and computational cost. As a result, Falcon-H1R demonstrates that compact models, through targeted model training and architectural choices, can deliver robust and scalable reasoning performance.
PDF120January 7, 2026