ChatPaper.aiChatPaper

Carrera de Expertos: Una Estrategia de Enrutamiento Flexible para Escalar Transformadores de Difusión con Mezcla de Expertos

Expert Race: A Flexible Routing Strategy for Scaling Diffusion Transformer with Mixture of Experts

March 20, 2025
Autores: Yike Yuan, Ziyu Wang, Zihao Huang, Defa Zhu, Xun Zhou, Jingyi Yu, Qiyang Min
cs.AI

Resumen

Los modelos de difusión se han consolidado como un marco principal en la generación visual. Basándose en este éxito, la integración de métodos de Mezcla de Expertos (MoE) ha mostrado potencial para mejorar la escalabilidad y el rendimiento de los modelos. En este artículo, presentamos Race-DiT, un novedoso modelo MoE para transformadores de difusión con una estrategia de enrutamiento flexible llamada Expert Race. Al permitir que los tokens y los expertos compitan juntos y seleccionen a los mejores candidatos, el modelo aprende a asignar dinámicamente expertos a los tokens críticos. Además, proponemos una regularización por capa para abordar los desafíos en el aprendizaje de capas superficiales, y una pérdida de similitud del enrutador para evitar el colapso de modos, garantizando una mejor utilización de los expertos. Experimentos exhaustivos en ImageNet validan la efectividad de nuestro enfoque, mostrando mejoras significativas en el rendimiento junto con propiedades prometedoras de escalabilidad.
English
Diffusion models have emerged as mainstream framework in visual generation. Building upon this success, the integration of Mixture of Experts (MoE) methods has shown promise in enhancing model scalability and performance. In this paper, we introduce Race-DiT, a novel MoE model for diffusion transformers with a flexible routing strategy, Expert Race. By allowing tokens and experts to compete together and select the top candidates, the model learns to dynamically assign experts to critical tokens. Additionally, we propose per-layer regularization to address challenges in shallow layer learning, and router similarity loss to prevent mode collapse, ensuring better expert utilization. Extensive experiments on ImageNet validate the effectiveness of our approach, showcasing significant performance gains while promising scaling properties.

Summary

AI-Generated Summary

PDF142March 21, 2025