Falcon-H1R: Spingere le Frontiere del Ragionamento con un Modello Ibrido per un Efficiente Scalabilità al Momento del Test

Abstract

Questo lavoro introduce Falcon-H1R, un modello da 7 miliardi di parametri ottimizzato per il ragionamento, che stabilisce la fattibilità di ottenere prestazioni competitive nel ragionamento con modelli linguistici di piccole dimensioni (SLM). Falcon-H1R si distingue per la sua efficienza parametrica, eguagliando o superando costantemente modelli di ragionamento allo stato dell'arte (SOTA) che sono da 2 a 7 volte più grandi su una varietà di benchmark ad alta intensità di ragionamento. Questi risultati sottolineano l'importanza di un'attenta selezione dei dati e di strategie di training mirate (tramite efficiente SFT e scalabilità RL) per ottenere significativi miglioramenti delle prestazioni senza aumentare le dimensioni del modello. Inoltre, Falcon-H1R avanza i limiti 3D dell'efficienza del ragionamento combinando un'inferenza più veloce (grazie al suo design architetturale ibrido-parallelo), efficienza dei token e maggiore accuratezza. Questa combinazione unica rende Falcon-H1R-7B un'architettura di base pratica per scalare sistemi di ragionamento avanzati, specialmente in scenari che richiedono un'ampia generazione di catene di pensiero (chain-of-thought) e una scalabilità parallela al momento del test. Sfruttando il recente approccio DeepConf, Falcon-H1R raggiunge un'efficienza di scalabilità al momento del test allo stato dell'arte, offrendo sostanziali miglioramenti sia in accuratezza che in costo computazionale. Di conseguenza, Falcon-H1R dimostra che modelli compatti, attraverso scelte mirate di training del modello e architetturali, possono fornire prestazioni di ragionamento robuste e scalabili.

English

This work introduces Falcon-H1R, a 7B-parameter reasoning-optimized model that establishes the feasibility of achieving competitive reasoning performance with small language models (SLMs). Falcon-H1R stands out for its parameter efficiency, consistently matching or outperforming SOTA reasoning models that are 2times to 7times larger across a variety of reasoning-intensive benchmarks. These results underscore the importance of careful data curation and targeted training strategies (via both efficient SFT and RL scaling) in delivering significant performance gains without increasing model size. Furthermore, Falcon-H1R advances the 3D limits of reasoning efficiency by combining faster inference (through its hybrid-parallel architecture design), token efficiency, and higher accuracy. This unique blend makes Falcon-H1R-7B a practical backbone for scaling advanced reasoning systems, particularly in scenarios requiring extensive chain-of-thoughts generation and parallel test-time scaling. Leveraging the recently introduced DeepConf approach, Falcon-H1R achieves state-of-the-art test-time scaling efficiency, offering substantial improvements in both accuracy and computational cost. As a result, Falcon-H1R demonstrates that compact models, through targeted model training and architectural choices, can deliver robust and scalable reasoning performance.

Falcon-H1R: Spingere le Frontiere del Ragionamento con un Modello Ibrido per un Efficiente Scalabilità al Momento del Test

Falcon-H1R: Pushing the Reasoning Frontiers with a Hybrid Model for Efficient Test-Time Scaling

Abstract

Support