Decoder-Hybrid-Decoder Architectuur voor Efficiënte Redenering met Lange Generatie
Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation
July 9, 2025
Auteurs: Liliang Ren, Congcong Chen, Haoran Xu, Young Jin Kim, Adam Atkinson, Zheng Zhan, Jiankai Sun, Baolin Peng, Liyuan Liu, Shuohang Wang, Hao Cheng, Jianfeng Gao, Weizhu Chen, Yelong Shen
cs.AI
Samenvatting
Recente ontwikkelingen in taalmodellering hebben de effectiviteit van State Space Models (SSMs) aangetoond voor efficiënte sequentiemodellering. Hoewel hybride architecturen zoals Samba en de decoder-decoder-architectuur, YOCO, veelbelovende prestatieverbeteringen hebben laten zien ten opzichte van Transformers, hebben eerdere werken het efficiëntiepotentieel van representatiedeling tussen SSM-lagen niet onderzocht. In dit artikel introduceren we de Gated Memory Unit (GMU), een eenvoudig maar effectief mechanisme voor efficiënte geheugendeling tussen lagen. We passen dit toe om SambaY te creëren, een decoder-hybride-decoder-architectuur die GMU's in de cross-decoder integreert om geheugenleesstatussen te delen vanuit een op Samba gebaseerde zelf-decoder. SambaY verbetert de decodeerefficiëntie aanzienlijk, behoudt lineaire tijdscomplexiteit bij het vooraf vullen, en verbetert de prestaties bij lange contexten, allemaal zonder expliciete positionele codering. Door uitgebreide schaalexperimenten tonen we aan dat ons model een aanzienlijk lagere onherleidbare verlies heeft vergeleken met een sterke YOCO-basislijn, wat wijst op superieure prestatieschaalbaarheid onder grootschalige rekenregimes. Ons grootste model, versterkt met Differentiële Aandacht, Phi4-mini-Flash-Reasoning, behaalt aanzienlijk betere prestaties dan Phi4-mini-Reasoning op redeneertaken zoals Math500, AIME24/25 en GPQA Diamond zonder enige reinforcement learning, terwijl het tot 10x hogere decodeerdoorvoer levert op prompts van 2K lengte met een generatielengte van 32K onder het vLLM-inferentiekader. We hebben onze trainingscodebase vrijgegeven op open-source data op https://github.com/microsoft/ArchScale.
English
Recent advances in language modeling have demonstrated the effectiveness of
State Space Models (SSMs) for efficient sequence modeling. While hybrid
architectures such as Samba and the decoder-decoder architecture, YOCO, have
shown promising performance gains over Transformers, prior works have not
investigated the efficiency potential of representation sharing between SSM
layers. In this paper, we introduce the Gated Memory Unit (GMU), a simple yet
effective mechanism for efficient memory sharing across layers. We apply it to
create SambaY, a decoder-hybrid-decoder architecture that incorporates GMUs in
the cross-decoder to share memory readout states from a Samba-based
self-decoder. SambaY significantly enhances decoding efficiency, preserves
linear pre-filling time complexity, and boosts long-context performance, all
while eliminating the need for explicit positional encoding. Through extensive
scaling experiments, we demonstrate that our model exhibits a significantly
lower irreducible loss compared to a strong YOCO baseline, indicating superior
performance scalability under large-scale compute regimes. Our largest model
enhanced with Differential Attention, Phi4-mini-Flash-Reasoning, achieves
significantly better performance than Phi4-mini-Reasoning on reasoning tasks
such as Math500, AIME24/25, and GPQA Diamond without any reinforcement
learning, while delivering up to 10x higher decoding throughput on 2K-length
prompts with 32K generation length under the vLLM inference framework. We
release our training codebase on open-source data at
https://github.com/microsoft/ArchScale.