ChatPaper.aiChatPaper

Falcon-H1R: 효율적인 테스트 타임 스케일링을 위한 하이브리드 모델로 추론의 한계를 넓혀가다

Falcon-H1R: Pushing the Reasoning Frontiers with a Hybrid Model for Efficient Test-Time Scaling

January 5, 2026
저자: Falcon LLM Team, Iheb Chaabane, Puneesh Khanna, Suhail Mohmad, Slim Frikha, Shi Hu, Abdalgader Abubaker, Reda Alami, Mikhail Lubinets, Mohamed El Amine Seddik, Hakim Hacid
cs.AI

초록

본 연구는 소형 언어 모델(SLM)로도 경쟁력 있는 추론 성능을 달성할 수 있음을 입증하는 7B 파라미터 규모의 추론 최적화 모델인 Falcon-H1R을 소개한다. Falcon-H1R은 파라미터 효율성 측면에서 두각을 나타내며, 다양한 추론 집약 벤치마크에서 2배에서 7배 더 큰 규모의 SOTA 추론 모델들을 꾸준히 따라잡거나 능가하는 성능을 보인다. 이러한 결과는 모델 규모를 증가시키지 않으면서도 상당한 성능 향상을 이루기 위해 신중한 데이터 큐레이션과 표적 훈련 전략(효율적인 SFT와 RL 스케일링을 통해)이 중요함을 강조한다. 나아가 Falcon-H1R은 더 빠른 추론(하이브리드 병렬 아키텍처 설계를 통해), 토큰 효율성, 더 높은 정확도의 결합을 통해 추론 효율성의 3차원적 한계를 발전시켰다. 이러한 독특한 조합은 Falcon-H1R-7B을 확장형 고급 추론 시스템, 특히 광범위한 사고 연쇄 생성과 병렬 테스트 타임 스케일링이 필요한 시나리오를 위한 실용적인 백본으로 만든다. 최근 도입된 DeepConf 접근법을 활용하여 Falcon-H1R은 SOTA 테스트 타임 스케일링 효율성을 달성하며, 정확도와 계산 비용 모두에서 상당한 개선을 제공한다. 그 결과 Falcon-H1R은 표적 모델 훈련과 아키텍처 선택을 통해 컴팩트한 모델이 견고하고 확장 가능한 추론 성능을 제공할 수 있음을 입증한다.
English
This work introduces Falcon-H1R, a 7B-parameter reasoning-optimized model that establishes the feasibility of achieving competitive reasoning performance with small language models (SLMs). Falcon-H1R stands out for its parameter efficiency, consistently matching or outperforming SOTA reasoning models that are 2times to 7times larger across a variety of reasoning-intensive benchmarks. These results underscore the importance of careful data curation and targeted training strategies (via both efficient SFT and RL scaling) in delivering significant performance gains without increasing model size. Furthermore, Falcon-H1R advances the 3D limits of reasoning efficiency by combining faster inference (through its hybrid-parallel architecture design), token efficiency, and higher accuracy. This unique blend makes Falcon-H1R-7B a practical backbone for scaling advanced reasoning systems, particularly in scenarios requiring extensive chain-of-thoughts generation and parallel test-time scaling. Leveraging the recently introduced DeepConf approach, Falcon-H1R achieves state-of-the-art test-time scaling efficiency, offering substantial improvements in both accuracy and computational cost. As a result, Falcon-H1R demonstrates that compact models, through targeted model training and architectural choices, can deliver robust and scalable reasoning performance.
PDF120January 7, 2026