Falcon-H1R: Expandindo as Fronteiras do Raciocínio com um Modelo Híbrido para Escalabilidade Eficiente em Tempo de Teste

Resumo

Este trabalho apresenta o Falcon-H1R, um modelo de 7 mil milhões de parâmetros otimizado para raciocínio, que estabelece a viabilidade de alcançar um desempenho competitivo em raciocínio com modelos de linguagem pequenos (SLMs). O Falcon-H1R destaca-se pela sua eficiência paramétrica, equiparando ou superando consistentemente modelos de raciocínio estado da arte (SOTA) que são 2 a 7 vezes maiores em vários benchmarks intensivos de raciocínio. Estes resultados sublinham a importância de uma curadoria de dados criteriosa e de estratégias de treino direcionadas (através de SFT eficiente e escalonamento por RL) para obter ganhos significativos de desempenho sem aumentar o tamanho do modelo. Além disso, o Falcon-H1R avança os limites 3D da eficiência de raciocínio ao combinar inferência mais rápida (através do seu design de arquitetura híbrida-paralela), eficiência de *tokens* e maior precisão. Esta combinação única torna o Falcon-H1R-7B uma espinha dorsal prática para a escalação de sistemas de raciocínio avançados, particularmente em cenários que exigem geração extensiva de cadeias de pensamento (*chain-of-thoughts*) e escalonamento paralelo em tempo de teste. Aproveitando a abordagem DeepConf recentemente introduzida, o Falcon-H1R alcança uma eficiência de escalonamento em tempo de teste estado da arte, oferecendo melhorias substanciais tanto na precisão como no custo computacional. Como resultado, o Falcon-H1R demonstra que modelos compactos, através de treino direcionado e escolhas arquiteturais adequadas, podem oferecer um desempenho de raciocínio robusto e escalável.

English

This work introduces Falcon-H1R, a 7B-parameter reasoning-optimized model that establishes the feasibility of achieving competitive reasoning performance with small language models (SLMs). Falcon-H1R stands out for its parameter efficiency, consistently matching or outperforming SOTA reasoning models that are 2times to 7times larger across a variety of reasoning-intensive benchmarks. These results underscore the importance of careful data curation and targeted training strategies (via both efficient SFT and RL scaling) in delivering significant performance gains without increasing model size. Furthermore, Falcon-H1R advances the 3D limits of reasoning efficiency by combining faster inference (through its hybrid-parallel architecture design), token efficiency, and higher accuracy. This unique blend makes Falcon-H1R-7B a practical backbone for scaling advanced reasoning systems, particularly in scenarios requiring extensive chain-of-thoughts generation and parallel test-time scaling. Leveraging the recently introduced DeepConf approach, Falcon-H1R achieves state-of-the-art test-time scaling efficiency, offering substantial improvements in both accuracy and computational cost. As a result, Falcon-H1R demonstrates that compact models, through targeted model training and architectural choices, can deliver robust and scalable reasoning performance.

Falcon-H1R: Expandindo as Fronteiras do Raciocínio com um Modelo Híbrido para Escalabilidade Eficiente em Tempo de Teste

Falcon-H1R: Pushing the Reasoning Frontiers with a Hybrid Model for Efficient Test-Time Scaling

Resumo

Support