Falcon-H1R: Impulsando las Fronteras del Razonamiento con un Modelo Híbrido para un Escalado Eficiente en Tiempo de Prueba
Falcon-H1R: Pushing the Reasoning Frontiers with a Hybrid Model for Efficient Test-Time Scaling
January 5, 2026
Autores: Falcon LLM Team, Iheb Chaabane, Puneesh Khanna, Suhail Mohmad, Slim Frikha, Shi Hu, Abdalgader Abubaker, Reda Alami, Mikhail Lubinets, Mohamed El Amine Seddik, Hakim Hacid
cs.AI
Resumen
Este trabajo presenta Falcon-H1R, un modelo optimizado para el razonamiento de 7 mil millones de parámetros que establece la viabilidad de alcanzar un rendimiento competitivo en razonamiento con modelos de lenguaje pequeños (SLM, por sus siglas en inglés). Falcon-H1R destaca por su eficiencia de parámetros, igualando o superando consistentemente a los modelos de razonamiento de última generación (SOTA) que son de 2 a 7 veces más grandes en diversos benchmarks intensivos en razonamiento. Estos resultados subrayan la importancia de una cuidadosa curación de datos y estrategias de entrenamiento específicas (mediante SFT eficiente y escalado con RL) para lograr mejoras significativas de rendimiento sin aumentar el tamaño del modelo. Además, Falcon-H1R avanza los límites 3D de la eficiencia en razonamiento al combinar una inferencia más rápida (gracias a su diseño de arquitectura híbrida-paralela), eficiencia de tokens y mayor precisión. Esta combinación única convierte a Falcon-H1R-7B en una base práctica para escalar sistemas de razonamiento avanzados, particularmente en escenarios que requieren una generación extensa de cadenas de pensamiento (chain-of-thought) y escalado paralelo en tiempo de prueba. Aprovechando el enfoque DeepConf introducido recientemente, Falcon-H1R logra una eficiencia de escalado en tiempo de prueba de última generación, ofreciendo mejoras sustanciales tanto en precisión como en coste computacional. Como resultado, Falcon-H1R demuestra que los modelos compactos, mediante entrenamientos específicos y elecciones arquitectónicas adecuadas, pueden ofrecer un rendimiento de razonamiento robusto y escalable.
English
This work introduces Falcon-H1R, a 7B-parameter reasoning-optimized model that establishes the feasibility of achieving competitive reasoning performance with small language models (SLMs). Falcon-H1R stands out for its parameter efficiency, consistently matching or outperforming SOTA reasoning models that are 2times to 7times larger across a variety of reasoning-intensive benchmarks. These results underscore the importance of careful data curation and targeted training strategies (via both efficient SFT and RL scaling) in delivering significant performance gains without increasing model size. Furthermore, Falcon-H1R advances the 3D limits of reasoning efficiency by combining faster inference (through its hybrid-parallel architecture design), token efficiency, and higher accuracy. This unique blend makes Falcon-H1R-7B a practical backbone for scaling advanced reasoning systems, particularly in scenarios requiring extensive chain-of-thoughts generation and parallel test-time scaling. Leveraging the recently introduced DeepConf approach, Falcon-H1R achieves state-of-the-art test-time scaling efficiency, offering substantial improvements in both accuracy and computational cost. As a result, Falcon-H1R demonstrates that compact models, through targeted model training and architectural choices, can deliver robust and scalable reasoning performance.