Arquitetura Decoder-Híbrido-Decoder para Raciocínio Eficiente com Geração Longa
Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation
July 9, 2025
Autores: Liliang Ren, Congcong Chen, Haoran Xu, Young Jin Kim, Adam Atkinson, Zheng Zhan, Jiankai Sun, Baolin Peng, Liyuan Liu, Shuohang Wang, Hao Cheng, Jianfeng Gao, Weizhu Chen, Yelong Shen
cs.AI
Resumo
Avanços recentes em modelagem de linguagem têm demonstrado a eficácia dos Modelos de Espaço de Estados (SSMs) para a modelagem eficiente de sequências. Embora arquiteturas híbridas, como Samba e a arquitetura decodificador-decodificador, YOCO, tenham mostrado ganhos promissores de desempenho em relação aos Transformers, trabalhos anteriores não investigaram o potencial de eficiência do compartilhamento de representações entre camadas de SSM. Neste artigo, introduzimos a Unidade de Memória Controlada (GMU), um mecanismo simples, porém eficaz, para o compartilhamento eficiente de memória entre camadas. Aplicamos isso para criar o SambaY, uma arquitetura decodificador-híbrido-decodificador que incorpora GMUs no decodificador cruzado para compartilhar estados de leitura de memória de um auto-decodificador baseado em Samba. O SambaY melhora significativamente a eficiência de decodificação, preserva a complexidade de tempo linear de pré-preenchimento e aumenta o desempenho em contextos longos, tudo isso enquanto elimina a necessidade de codificação posicional explícita. Por meio de extensos experimentos de escalonamento, demonstramos que nosso modelo exibe uma perda irredutível significativamente menor em comparação com uma linha de base forte do YOCO, indicando uma escalabilidade de desempenho superior em regimes de computação em larga escala. Nosso maior modelo, aprimorado com Atenção Diferencial, Phi4-mini-Flash-Reasoning, alcança um desempenho significativamente melhor do que o Phi4-mini-Reasoning em tarefas de raciocínio, como Math500, AIME24/25 e GPQA Diamond, sem qualquer aprendizado por reforço, enquanto oferece até 10x maior taxa de decodificação em prompts de 2K de comprimento com geração de 32K de comprimento sob o framework de inferência vLLM. Disponibilizamos nossa base de código de treinamento em dados de código aberto em https://github.com/microsoft/ArchScale.
English
Recent advances in language modeling have demonstrated the effectiveness of
State Space Models (SSMs) for efficient sequence modeling. While hybrid
architectures such as Samba and the decoder-decoder architecture, YOCO, have
shown promising performance gains over Transformers, prior works have not
investigated the efficiency potential of representation sharing between SSM
layers. In this paper, we introduce the Gated Memory Unit (GMU), a simple yet
effective mechanism for efficient memory sharing across layers. We apply it to
create SambaY, a decoder-hybrid-decoder architecture that incorporates GMUs in
the cross-decoder to share memory readout states from a Samba-based
self-decoder. SambaY significantly enhances decoding efficiency, preserves
linear pre-filling time complexity, and boosts long-context performance, all
while eliminating the need for explicit positional encoding. Through extensive
scaling experiments, we demonstrate that our model exhibits a significantly
lower irreducible loss compared to a strong YOCO baseline, indicating superior
performance scalability under large-scale compute regimes. Our largest model
enhanced with Differential Attention, Phi4-mini-Flash-Reasoning, achieves
significantly better performance than Phi4-mini-Reasoning on reasoning tasks
such as Math500, AIME24/25, and GPQA Diamond without any reinforcement
learning, while delivering up to 10x higher decoding throughput on 2K-length
prompts with 32K generation length under the vLLM inference framework. We
release our training codebase on open-source data at
https://github.com/microsoft/ArchScale.