Goku : Modèles de fondation génératifs de vidéos basés sur le flux
Goku: Flow Based Video Generative Foundation Models
February 7, 2025
Auteurs: Shoufa Chen, Chongjian Ge, Yuqi Zhang, Yida Zhang, Fengda Zhu, Hao Yang, Hongxiang Hao, Hui Wu, Zhichao Lai, Yifei Hu, Ting-Che Lin, Shilong Zhang, Fu Li, Chuan Li, Xing Wang, Yanghua Peng, Peize Sun, Ping Luo, Yi Jiang, Zehuan Yuan, Bingyue Peng, Xiaobing Liu
cs.AI
Résumé
Cet article présente Goku, une famille de modèles de génération d'images et de vidéos de pointe exploitant des transformateurs de flux rectifiés pour atteindre des performances de pointe dans l'industrie. Nous détaillons les éléments fondamentaux permettant une génération visuelle de haute qualité, notamment le pipeline de curation des données, la conception de l'architecture du modèle, la formulation du flux, et l'infrastructure avancée pour un entraînement à grande échelle efficace et robuste. Les modèles Goku démontrent des performances supérieures tant dans les évaluations qualitatives que quantitatives, établissant de nouveaux référentiels pour les principales tâches. Plus précisément, Goku atteint 0,76 sur GenEval et 83,65 sur DPG-Bench pour la génération de texte en image, et 84,85 sur VBench pour les tâches de texte en vidéo. Nous pensons que ce travail offre des perspectives précieuses et des avancées pratiques pour la communauté de recherche dans le développement de modèles de génération conjointe d'images et de vidéos.
English
This paper introduces Goku, a state-of-the-art family of joint
image-and-video generation models leveraging rectified flow Transformers to
achieve industry-leading performance. We detail the foundational elements
enabling high-quality visual generation, including the data curation pipeline,
model architecture design, flow formulation, and advanced infrastructure for
efficient and robust large-scale training. The Goku models demonstrate superior
performance in both qualitative and quantitative evaluations, setting new
benchmarks across major tasks. Specifically, Goku achieves 0.76 on GenEval and
83.65 on DPG-Bench for text-to-image generation, and 84.85 on VBench for
text-to-video tasks. We believe that this work provides valuable insights and
practical advancements for the research community in developing joint
image-and-video generation models.Summary
AI-Generated Summary