Architettura Decoder-Ibrido-Decoder per un Ragionamento Efficiente con Generazione Lunga

Abstract

I recenti progressi nella modellazione del linguaggio hanno dimostrato l'efficacia dei Modelli a Spazio di Stati (SSM) per la modellazione efficiente di sequenze. Sebbene architetture ibride come Samba e l'architettura decoder-decoder, YOCO, abbiano mostrato promettenti miglioramenti delle prestazioni rispetto ai Transformer, i lavori precedenti non hanno esplorato il potenziale di efficienza derivante dalla condivisione delle rappresentazioni tra i livelli SSM. In questo articolo, introduciamo l'Unità di Memoria Controllata (GMU), un meccanismo semplice ma efficace per la condivisione efficiente della memoria tra i livelli. Lo applichiamo per creare SambaY, un'architettura decoder-ibrido-decoder che incorpora GMU nel cross-decoder per condividere gli stati di lettura della memoria da un self-decoder basato su Samba. SambaY migliora significativamente l'efficienza di decodifica, preserva la complessità temporale lineare del pre-riempimento e potenzia le prestazioni su contesti lunghi, tutto ciò eliminando la necessità di codifica posizionale esplicita. Attraverso esperimenti di scalabilità estensivi, dimostriamo che il nostro modello presenta una perdita irriducibile significativamente inferiore rispetto a un solido baseline YOCO, indicando una superiore scalabilità delle prestazioni in regimi di calcolo su larga scala. Il nostro modello più grande, potenziato con Attenzione Differenziale, Phi4-mini-Flash-Reasoning, ottiene prestazioni significativamente migliori rispetto a Phi4-mini-Reasoning su compiti di ragionamento come Math500, AIME24/25 e GPQA Diamond senza alcun apprendimento per rinforzo, fornendo fino a 10 volte maggiore throughput di decodifica su prompt di lunghezza 2K con una lunghezza di generazione di 32K nel framework di inferenza vLLM. Rilasciamo il nostro codice di addestramento su dati open-source all'indirizzo https://github.com/microsoft/ArchScale.

English

Recent advances in language modeling have demonstrated the effectiveness of State Space Models (SSMs) for efficient sequence modeling. While hybrid architectures such as Samba and the decoder-decoder architecture, YOCO, have shown promising performance gains over Transformers, prior works have not investigated the efficiency potential of representation sharing between SSM layers. In this paper, we introduce the Gated Memory Unit (GMU), a simple yet effective mechanism for efficient memory sharing across layers. We apply it to create SambaY, a decoder-hybrid-decoder architecture that incorporates GMUs in the cross-decoder to share memory readout states from a Samba-based self-decoder. SambaY significantly enhances decoding efficiency, preserves linear pre-filling time complexity, and boosts long-context performance, all while eliminating the need for explicit positional encoding. Through extensive scaling experiments, we demonstrate that our model exhibits a significantly lower irreducible loss compared to a strong YOCO baseline, indicating superior performance scalability under large-scale compute regimes. Our largest model enhanced with Differential Attention, Phi4-mini-Flash-Reasoning, achieves significantly better performance than Phi4-mini-Reasoning on reasoning tasks such as Math500, AIME24/25, and GPQA Diamond without any reinforcement learning, while delivering up to 10x higher decoding throughput on 2K-length prompts with 32K generation length under the vLLM inference framework. We release our training codebase on open-source data at https://github.com/microsoft/ArchScale.

Architettura Decoder-Ibrido-Decoder per un Ragionamento Efficiente con Generazione Lunga

Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation

Abstract

Support