Architettura Decoder-Ibrido-Decoder per un Ragionamento Efficiente con Generazione Lunga
Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation
July 9, 2025
Autori: Liliang Ren, Congcong Chen, Haoran Xu, Young Jin Kim, Adam Atkinson, Zheng Zhan, Jiankai Sun, Baolin Peng, Liyuan Liu, Shuohang Wang, Hao Cheng, Jianfeng Gao, Weizhu Chen, Yelong Shen
cs.AI
Abstract
I recenti progressi nella modellazione del linguaggio hanno dimostrato l'efficacia dei Modelli a Spazio di Stati (SSM) per la modellazione efficiente di sequenze. Sebbene architetture ibride come Samba e l'architettura decoder-decoder, YOCO, abbiano mostrato promettenti miglioramenti delle prestazioni rispetto ai Transformer, i lavori precedenti non hanno esplorato il potenziale di efficienza derivante dalla condivisione delle rappresentazioni tra i livelli SSM. In questo articolo, introduciamo l'Unità di Memoria Controllata (GMU), un meccanismo semplice ma efficace per la condivisione efficiente della memoria tra i livelli. Lo applichiamo per creare SambaY, un'architettura decoder-ibrido-decoder che incorpora GMU nel cross-decoder per condividere gli stati di lettura della memoria da un self-decoder basato su Samba. SambaY migliora significativamente l'efficienza di decodifica, preserva la complessità temporale lineare del pre-riempimento e potenzia le prestazioni su contesti lunghi, tutto ciò eliminando la necessità di codifica posizionale esplicita. Attraverso esperimenti di scalabilità estensivi, dimostriamo che il nostro modello presenta una perdita irriducibile significativamente inferiore rispetto a un solido baseline YOCO, indicando una superiore scalabilità delle prestazioni in regimi di calcolo su larga scala. Il nostro modello più grande, potenziato con Attenzione Differenziale, Phi4-mini-Flash-Reasoning, ottiene prestazioni significativamente migliori rispetto a Phi4-mini-Reasoning su compiti di ragionamento come Math500, AIME24/25 e GPQA Diamond senza alcun apprendimento per rinforzo, fornendo fino a 10 volte maggiore throughput di decodifica su prompt di lunghezza 2K con una lunghezza di generazione di 32K nel framework di inferenza vLLM. Rilasciamo il nostro codice di addestramento su dati open-source all'indirizzo https://github.com/microsoft/ArchScale.
English
Recent advances in language modeling have demonstrated the effectiveness of
State Space Models (SSMs) for efficient sequence modeling. While hybrid
architectures such as Samba and the decoder-decoder architecture, YOCO, have
shown promising performance gains over Transformers, prior works have not
investigated the efficiency potential of representation sharing between SSM
layers. In this paper, we introduce the Gated Memory Unit (GMU), a simple yet
effective mechanism for efficient memory sharing across layers. We apply it to
create SambaY, a decoder-hybrid-decoder architecture that incorporates GMUs in
the cross-decoder to share memory readout states from a Samba-based
self-decoder. SambaY significantly enhances decoding efficiency, preserves
linear pre-filling time complexity, and boosts long-context performance, all
while eliminating the need for explicit positional encoding. Through extensive
scaling experiments, we demonstrate that our model exhibits a significantly
lower irreducible loss compared to a strong YOCO baseline, indicating superior
performance scalability under large-scale compute regimes. Our largest model
enhanced with Differential Attention, Phi4-mini-Flash-Reasoning, achieves
significantly better performance than Phi4-mini-Reasoning on reasoning tasks
such as Math500, AIME24/25, and GPQA Diamond without any reinforcement
learning, while delivering up to 10x higher decoding throughput on 2K-length
prompts with 32K generation length under the vLLM inference framework. We
release our training codebase on open-source data at
https://github.com/microsoft/ArchScale.