Arquitectura Decodificador-Híbrido-Decodificador para Razonamiento Eficiente con Generación Larga

Resumen

Los avances recientes en el modelado del lenguaje han demostrado la eficacia de los Modelos de Espacio de Estados (SSMs, por sus siglas en inglés) para el modelado eficiente de secuencias. Si bien arquitecturas híbridas como Samba y la arquitectura decodificador-decodificador, YOCO, han mostrado mejoras prometedoras en el rendimiento en comparación con los Transformers, trabajos previos no han investigado el potencial de eficiencia del intercambio de representaciones entre capas de SSM. En este artículo, presentamos la Unidad de Memoria con Compuerta (GMU, por sus siglas en inglés), un mecanismo simple pero efectivo para el intercambio eficiente de memoria entre capas. Lo aplicamos para crear SambaY, una arquitectura híbrida decodificador-decodificador que incorpora GMUs en el decodificador cruzado para compartir estados de lectura de memoria desde un autodecodificador basado en Samba. SambaY mejora significativamente la eficiencia de decodificación, preserva la complejidad temporal lineal de prellenado y aumenta el rendimiento en contextos largos, todo ello sin necesidad de codificación posicional explícita. A través de extensos experimentos de escalabilidad, demostramos que nuestro modelo exhibe una pérdida irreducible significativamente menor en comparación con una línea de base sólida de YOCO, lo que indica una escalabilidad de rendimiento superior en regímenes de computación a gran escala. Nuestro modelo más grande, mejorado con Atención Diferencial, Phi4-mini-Flash-Reasoning, logra un rendimiento significativamente mejor que Phi4-mini-Reasoning en tareas de razonamiento como Math500, AIME24/25 y GPQA Diamond sin ningún aprendizaje por refuerzo, mientras ofrece un rendimiento de decodificación hasta 10 veces mayor en indicaciones de longitud 2K con una longitud de generación de 32K bajo el marco de inferencia vLLM. Publicamos nuestra base de código de entrenamiento en datos de código abierto en https://github.com/microsoft/ArchScale.

English

Recent advances in language modeling have demonstrated the effectiveness of State Space Models (SSMs) for efficient sequence modeling. While hybrid architectures such as Samba and the decoder-decoder architecture, YOCO, have shown promising performance gains over Transformers, prior works have not investigated the efficiency potential of representation sharing between SSM layers. In this paper, we introduce the Gated Memory Unit (GMU), a simple yet effective mechanism for efficient memory sharing across layers. We apply it to create SambaY, a decoder-hybrid-decoder architecture that incorporates GMUs in the cross-decoder to share memory readout states from a Samba-based self-decoder. SambaY significantly enhances decoding efficiency, preserves linear pre-filling time complexity, and boosts long-context performance, all while eliminating the need for explicit positional encoding. Through extensive scaling experiments, we demonstrate that our model exhibits a significantly lower irreducible loss compared to a strong YOCO baseline, indicating superior performance scalability under large-scale compute regimes. Our largest model enhanced with Differential Attention, Phi4-mini-Flash-Reasoning, achieves significantly better performance than Phi4-mini-Reasoning on reasoning tasks such as Math500, AIME24/25, and GPQA Diamond without any reinforcement learning, while delivering up to 10x higher decoding throughput on 2K-length prompts with 32K generation length under the vLLM inference framework. We release our training codebase on open-source data at https://github.com/microsoft/ArchScale.

Arquitectura Decodificador-Híbrido-Decodificador para Razonamiento Eficiente con Generación Larga

Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation

Resumen

Support