Falcon-H1R: Расширение границ логического вывода с помощью гибридной модели для эффективного масштабирования во время тестирования
Falcon-H1R: Pushing the Reasoning Frontiers with a Hybrid Model for Efficient Test-Time Scaling
January 5, 2026
Авторы: Falcon LLM Team, Iheb Chaabane, Puneesh Khanna, Suhail Mohmad, Slim Frikha, Shi Hu, Abdalgader Abubaker, Reda Alami, Mikhail Lubinets, Mohamed El Amine Seddik, Hakim Hacid
cs.AI
Аннотация
Данная работа представляет Falcon-H1R — 7-миллиардную модель, оптимизированную для логических рассуждений, которая демонстрирует возможность достижения конкурентоспособных результатов в этой области с помощью малых языковых моделей (SLM). Falcon-H1R выделяется своей параметрической эффективностью, стабильно соответствуя или превосходя современные (SOTA) модели для рассуждений, которые в 2–7 раз больше, на различных наборах данных, требующих интенсивных логических выводов. Эти результаты подчеркивают важность тщательного отбора данных и целенаправленных стратегий обучения (посредством как эффективного SFT, так и масштабирования с подкреплением) для достижения значительного прироста производительности без увеличения размера модели. Более того, Falcon-H1R расширяет трехмерные границы эффективности рассуждений, сочетая более быстрый вывод (благодаря гибридно-параллельному архитектурному проектированию), эффективность использования токенов и повышенную точность. Эта уникальная комбинация делает Falcon-H1R-7B практическим фундаментом для масштабирования продвинутых систем логического вывода, особенно в сценариях, требующих генерации обширных цепочек рассуждений (chain-of-thoughts) и параллельного масштабирования на этапе тестирования. Используя недавно представленный подход DeepConf, Falcon-H1R достигает наивысшей эффективности масштабирования на этапе тестирования, предлагая существенное улучшение как по точности, так и по вычислительным затратам. В результате Falcon-H1R демонстрирует, что компактные модели, благодаря целенаправленному обучению и архитектурным решениям, могут обеспечивать надежную и масштабируемую производительность в задачах логического вывода.
English
This work introduces Falcon-H1R, a 7B-parameter reasoning-optimized model that establishes the feasibility of achieving competitive reasoning performance with small language models (SLMs). Falcon-H1R stands out for its parameter efficiency, consistently matching or outperforming SOTA reasoning models that are 2times to 7times larger across a variety of reasoning-intensive benchmarks. These results underscore the importance of careful data curation and targeted training strategies (via both efficient SFT and RL scaling) in delivering significant performance gains without increasing model size. Furthermore, Falcon-H1R advances the 3D limits of reasoning efficiency by combining faster inference (through its hybrid-parallel architecture design), token efficiency, and higher accuracy. This unique blend makes Falcon-H1R-7B a practical backbone for scaling advanced reasoning systems, particularly in scenarios requiring extensive chain-of-thoughts generation and parallel test-time scaling. Leveraging the recently introduced DeepConf approach, Falcon-H1R achieves state-of-the-art test-time scaling efficiency, offering substantial improvements in both accuracy and computational cost. As a result, Falcon-H1R demonstrates that compact models, through targeted model training and architectural choices, can deliver robust and scalable reasoning performance.