ChatPaper.aiChatPaper

Goku: Flussbasierte Video-generative Grundlagenmodelle

Goku: Flow Based Video Generative Foundation Models

February 7, 2025
Autoren: Shoufa Chen, Chongjian Ge, Yuqi Zhang, Yida Zhang, Fengda Zhu, Hao Yang, Hongxiang Hao, Hui Wu, Zhichao Lai, Yifei Hu, Ting-Che Lin, Shilong Zhang, Fu Li, Chuan Li, Xing Wang, Yanghua Peng, Peize Sun, Ping Luo, Yi Jiang, Zehuan Yuan, Bingyue Peng, Xiaobing Liu
cs.AI

Zusammenfassung

Dieses Paper stellt Goku vor, eine hochmoderne Familie von gemeinsamen Bild- und Videoerzeugungsmodellen, die auf rektifizierten Fluss-Transformatoren basieren, um branchenführende Leistungen zu erzielen. Wir erläutern die grundlegenden Elemente, die eine hochwertige visuelle Erzeugung ermöglichen, einschließlich des Datenkurations-Pipelines, des Modellarchitekturdesigns, der Flussformulierung und der fortschrittlichen Infrastruktur für effizientes und robustes Training im großen Maßstab. Die Goku-Modelle zeigen überlegene Leistungen in qualitativen und quantitativen Bewertungen und setzen neue Maßstäbe in wichtigen Aufgaben. Speziell erzielt Goku 0,76 bei GenEval und 83,65 bei DPG-Bench für die Text-zu-Bild-Erzeugung sowie 84,85 bei VBench für Text-zu-Video-Aufgaben. Wir sind der Überzeugung, dass diese Arbeit wertvolle Einblicke und praktische Fortschritte für die Forschungsgemeinschaft bei der Entwicklung gemeinsamer Bild- und Videoerzeugungsmodelle bietet.
English
This paper introduces Goku, a state-of-the-art family of joint image-and-video generation models leveraging rectified flow Transformers to achieve industry-leading performance. We detail the foundational elements enabling high-quality visual generation, including the data curation pipeline, model architecture design, flow formulation, and advanced infrastructure for efficient and robust large-scale training. The Goku models demonstrate superior performance in both qualitative and quantitative evaluations, setting new benchmarks across major tasks. Specifically, Goku achieves 0.76 on GenEval and 83.65 on DPG-Bench for text-to-image generation, and 84.85 on VBench for text-to-video tasks. We believe that this work provides valuable insights and practical advancements for the research community in developing joint image-and-video generation models.
PDF10412February 10, 2025