Decoder-Hybrid-Decoder-Architektur für effizientes Schließen bei langen Generierungen
Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation
July 9, 2025
papers.authors: Liliang Ren, Congcong Chen, Haoran Xu, Young Jin Kim, Adam Atkinson, Zheng Zhan, Jiankai Sun, Baolin Peng, Liyuan Liu, Shuohang Wang, Hao Cheng, Jianfeng Gao, Weizhu Chen, Yelong Shen
cs.AI
papers.abstract
Jüngste Fortschritte im Bereich der Sprachmodellierung haben die Effektivität von State-Space-Modellen (SSMs) für effiziente Sequenzmodellierung demonstriert. Während hybride Architekturen wie Samba und die Decoder-Decoder-Architektur YOCO vielversprechende Leistungssteigerungen gegenüber Transformern gezeigt haben, haben frühere Arbeiten das Effizienzpotenzial der Repräsentationsweitergabe zwischen SSM-Schichten nicht untersucht. In diesem Artikel stellen wir die Gated Memory Unit (GMU) vor, einen einfachen, aber effektiven Mechanismus für effizientes Speicher-Sharing über Schichten hinweg. Wir wenden sie an, um SambaY zu erstellen, eine Decoder-Hybrid-Decoder-Architektur, die GMUs im Cross-Decoder integriert, um Speicherlesezustände aus einem Samba-basierten Self-Decoder zu teilen. SambaY verbessert die Decodiereffizienz erheblich, bewahrt die lineare Zeitkomplexität beim Pre-Filling und steigert die Leistung bei langen Kontexten, alles ohne die Notwendigkeit expliziter Positionskodierung. Durch umfangreiche Skalierungsexperimente zeigen wir, dass unser Modell im Vergleich zu einer starken YOCO-Baseline einen deutlich geringeren irreduziblen Verlust aufweist, was auf eine überlegene Leistungsskalierbarkeit unter großskaligen Rechenregimen hinweist. Unser größtes Modell, das mit Differential Attention, Phi4-mini-Flash-Reasoning, erweitert wurde, erzielt signifikant bessere Leistungen als Phi4-mini-Reasoning bei Aufgaben wie Math500, AIME24/25 und GPQA Diamond ohne jegliches Reinforcement Learning, während es unter dem vLLM-Inferenzframework eine bis zu 10-fach höhere Decodiergeschwindigkeit bei 2K-langen Prompts mit einer Generierungslänge von 32K liefert. Wir veröffentlichen unsere Trainingscodebasis auf Open-Source-Daten unter https://github.com/microsoft/ArchScale.
English
Recent advances in language modeling have demonstrated the effectiveness of
State Space Models (SSMs) for efficient sequence modeling. While hybrid
architectures such as Samba and the decoder-decoder architecture, YOCO, have
shown promising performance gains over Transformers, prior works have not
investigated the efficiency potential of representation sharing between SSM
layers. In this paper, we introduce the Gated Memory Unit (GMU), a simple yet
effective mechanism for efficient memory sharing across layers. We apply it to
create SambaY, a decoder-hybrid-decoder architecture that incorporates GMUs in
the cross-decoder to share memory readout states from a Samba-based
self-decoder. SambaY significantly enhances decoding efficiency, preserves
linear pre-filling time complexity, and boosts long-context performance, all
while eliminating the need for explicit positional encoding. Through extensive
scaling experiments, we demonstrate that our model exhibits a significantly
lower irreducible loss compared to a strong YOCO baseline, indicating superior
performance scalability under large-scale compute regimes. Our largest model
enhanced with Differential Attention, Phi4-mini-Flash-Reasoning, achieves
significantly better performance than Phi4-mini-Reasoning on reasoning tasks
such as Math500, AIME24/25, and GPQA Diamond without any reinforcement
learning, while delivering up to 10x higher decoding throughput on 2K-length
prompts with 32K generation length under the vLLM inference framework. We
release our training codebase on open-source data at
https://github.com/microsoft/ArchScale.