ChatPaper.aiChatPaper

Goku : Modèles de fondation génératifs de vidéos basés sur le flux

Goku: Flow Based Video Generative Foundation Models

February 7, 2025
Auteurs: Shoufa Chen, Chongjian Ge, Yuqi Zhang, Yida Zhang, Fengda Zhu, Hao Yang, Hongxiang Hao, Hui Wu, Zhichao Lai, Yifei Hu, Ting-Che Lin, Shilong Zhang, Fu Li, Chuan Li, Xing Wang, Yanghua Peng, Peize Sun, Ping Luo, Yi Jiang, Zehuan Yuan, Bingyue Peng, Xiaobing Liu
cs.AI

Résumé

Cet article présente Goku, une famille de modèles de génération d'images et de vidéos de pointe exploitant des transformateurs de flux rectifiés pour atteindre des performances de pointe dans l'industrie. Nous détaillons les éléments fondamentaux permettant une génération visuelle de haute qualité, notamment le pipeline de curation des données, la conception de l'architecture du modèle, la formulation du flux, et l'infrastructure avancée pour un entraînement à grande échelle efficace et robuste. Les modèles Goku démontrent des performances supérieures tant dans les évaluations qualitatives que quantitatives, établissant de nouveaux référentiels pour les principales tâches. Plus précisément, Goku atteint 0,76 sur GenEval et 83,65 sur DPG-Bench pour la génération de texte en image, et 84,85 sur VBench pour les tâches de texte en vidéo. Nous pensons que ce travail offre des perspectives précieuses et des avancées pratiques pour la communauté de recherche dans le développement de modèles de génération conjointe d'images et de vidéos.
English
This paper introduces Goku, a state-of-the-art family of joint image-and-video generation models leveraging rectified flow Transformers to achieve industry-leading performance. We detail the foundational elements enabling high-quality visual generation, including the data curation pipeline, model architecture design, flow formulation, and advanced infrastructure for efficient and robust large-scale training. The Goku models demonstrate superior performance in both qualitative and quantitative evaluations, setting new benchmarks across major tasks. Specifically, Goku achieves 0.76 on GenEval and 83.65 on DPG-Bench for text-to-image generation, and 84.85 on VBench for text-to-video tasks. We believe that this work provides valuable insights and practical advancements for the research community in developing joint image-and-video generation models.

Summary

AI-Generated Summary

PDF10412February 10, 2025