ChatPaper.aiChatPaper

Goku: Stroomgebaseerde Video Generatieve Grondslagmodellen

Goku: Flow Based Video Generative Foundation Models

February 7, 2025
Auteurs: Shoufa Chen, Chongjian Ge, Yuqi Zhang, Yida Zhang, Fengda Zhu, Hao Yang, Hongxiang Hao, Hui Wu, Zhichao Lai, Yifei Hu, Ting-Che Lin, Shilong Zhang, Fu Li, Chuan Li, Xing Wang, Yanghua Peng, Peize Sun, Ping Luo, Yi Jiang, Zehuan Yuan, Bingyue Peng, Xiaobing Liu
cs.AI

Samenvatting

Deze paper introduceert Goku, een state-of-the-art familie van gezamenlijke beeld- en video-generatiemodellen die gebruikmaken van rechtgezette stroomtransformatoren om toonaangevende prestaties in de industrie te behalen. We beschrijven de fundamentele elementen die hoogwaardige visuele generatie mogelijk maken, waaronder het gegevensverzamelingsproces, het ontwerp van het modelarchitectuur, de stroomformulering, en geavanceerde infrastructuur voor efficiënte en robuuste grootschalige training. De Goku-modellen tonen superieure prestaties in zowel kwalitatieve als kwantitatieve evaluaties, waarbij nieuwe maatstaven worden gezet voor belangrijke taken. Specifiek behaalt Goku 0.76 op GenEval en 83.65 op DPG-Bench voor tekst-naar-beeld generatie, en 84.85 op VBench voor tekst-naar-video taken. Wij geloven dat dit werk waardevolle inzichten en praktische vooruitgang biedt voor de onderzoeksgemeenschap bij het ontwikkelen van gezamenlijke beeld- en video-generatiemodellen.
English
This paper introduces Goku, a state-of-the-art family of joint image-and-video generation models leveraging rectified flow Transformers to achieve industry-leading performance. We detail the foundational elements enabling high-quality visual generation, including the data curation pipeline, model architecture design, flow formulation, and advanced infrastructure for efficient and robust large-scale training. The Goku models demonstrate superior performance in both qualitative and quantitative evaluations, setting new benchmarks across major tasks. Specifically, Goku achieves 0.76 on GenEval and 83.65 on DPG-Bench for text-to-image generation, and 84.85 on VBench for text-to-video tasks. We believe that this work provides valuable insights and practical advancements for the research community in developing joint image-and-video generation models.

Summary

AI-Generated Summary

PDF10412February 10, 2025