Architecture Décodeur-Hybride-Décodeur pour un Raisonnement Efficace avec des Générations Longues
Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation
July 9, 2025
papers.authors: Liliang Ren, Congcong Chen, Haoran Xu, Young Jin Kim, Adam Atkinson, Zheng Zhan, Jiankai Sun, Baolin Peng, Liyuan Liu, Shuohang Wang, Hao Cheng, Jianfeng Gao, Weizhu Chen, Yelong Shen
cs.AI
papers.abstract
Les récentes avancées en modélisation du langage ont démontré l'efficacité des modèles à espace d'états (State Space Models, SSMs) pour la modélisation efficace de séquences. Bien que des architectures hybrides telles que Samba et l'architecture décodeur-décodeur, YOCO, aient montré des gains de performance prometteurs par rapport aux Transformers, les travaux antérieurs n'ont pas exploré le potentiel d'efficacité du partage de représentations entre les couches de SSM. Dans cet article, nous introduisons l'Unité de Mémoire à Porte (Gated Memory Unit, GMU), un mécanisme simple mais efficace pour le partage de mémoire entre les couches. Nous l'appliquons pour créer SambaY, une architecture hybride décodeur-décodeur qui intègre des GMUs dans le décodeur croisé pour partager les états de lecture de mémoire d'un auto-décodeur basé sur Samba. SambaY améliore significativement l'efficacité du décodage, préserve la complexité temporelle linéaire du pré-remplissage et améliore les performances sur des contextes longs, tout en éliminant le besoin d'encodage positionnel explicite. À travers des expériences d'échelle approfondies, nous démontrons que notre modèle présente une perte irréductible significativement plus faible par rapport à une base de référence YOCO solide, indiquant une scalabilité de performance supérieure dans des régimes de calcul à grande échelle. Notre plus grand modèle, amélioré avec l'Attention Différentielle, Phi4-mini-Flash-Reasoning, obtient des performances significativement meilleures que Phi4-mini-Reasoning sur des tâches de raisonnement telles que Math500, AIME24/25 et GPQA Diamond sans aucun apprentissage par renforcement, tout en offrant un débit de décodage jusqu'à 10 fois supérieur sur des prompts de longueur 2K avec une longueur de génération de 32K sous le framework d'inférence vLLM. Nous publions notre base de code d'entraînement sur des données open-source à l'adresse https://github.com/microsoft/ArchScale.
English
Recent advances in language modeling have demonstrated the effectiveness of
State Space Models (SSMs) for efficient sequence modeling. While hybrid
architectures such as Samba and the decoder-decoder architecture, YOCO, have
shown promising performance gains over Transformers, prior works have not
investigated the efficiency potential of representation sharing between SSM
layers. In this paper, we introduce the Gated Memory Unit (GMU), a simple yet
effective mechanism for efficient memory sharing across layers. We apply it to
create SambaY, a decoder-hybrid-decoder architecture that incorporates GMUs in
the cross-decoder to share memory readout states from a Samba-based
self-decoder. SambaY significantly enhances decoding efficiency, preserves
linear pre-filling time complexity, and boosts long-context performance, all
while eliminating the need for explicit positional encoding. Through extensive
scaling experiments, we demonstrate that our model exhibits a significantly
lower irreducible loss compared to a strong YOCO baseline, indicating superior
performance scalability under large-scale compute regimes. Our largest model
enhanced with Differential Attention, Phi4-mini-Flash-Reasoning, achieves
significantly better performance than Phi4-mini-Reasoning on reasoning tasks
such as Math500, AIME24/25, and GPQA Diamond without any reinforcement
learning, while delivering up to 10x higher decoding throughput on 2K-length
prompts with 32K generation length under the vLLM inference framework. We
release our training codebase on open-source data at
https://github.com/microsoft/ArchScale.