ChatPaper.aiChatPaper

Goku: Modelli Fondamentali Generativi Video Basati sul Flusso

Goku: Flow Based Video Generative Foundation Models

February 7, 2025
Autori: Shoufa Chen, Chongjian Ge, Yuqi Zhang, Yida Zhang, Fengda Zhu, Hao Yang, Hongxiang Hao, Hui Wu, Zhichao Lai, Yifei Hu, Ting-Che Lin, Shilong Zhang, Fu Li, Chuan Li, Xing Wang, Yanghua Peng, Peize Sun, Ping Luo, Yi Jiang, Zehuan Yuan, Bingyue Peng, Xiaobing Liu
cs.AI

Abstract

Questo articolo introduce Goku, una famiglia all'avanguardia di modelli di generazione congiunta di immagini e video che sfruttano i Transformers a flusso rettificato per ottenere prestazioni leader nel settore. Dettagliamo gli elementi fondamentali che consentono una generazione visiva di alta qualità, tra cui il processo di cura dei dati, la progettazione dell'architettura del modello, la formulazione del flusso e l'infrastruttura avanzata per un addestramento efficiente e robusto su larga scala. I modelli Goku dimostrano prestazioni superiori sia nelle valutazioni qualitative che quantitative, stabilendo nuovi benchmark in importanti compiti. In particolare, Goku raggiunge 0.76 su GenEval e 83.65 su DPG-Bench per la generazione di testo in immagini, e 84.85 su VBench per i compiti di testo in video. Riteniamo che questo lavoro fornisca preziose intuizioni e progressi pratici per la comunità di ricerca nello sviluppo di modelli congiunti di generazione di immagini e video.
English
This paper introduces Goku, a state-of-the-art family of joint image-and-video generation models leveraging rectified flow Transformers to achieve industry-leading performance. We detail the foundational elements enabling high-quality visual generation, including the data curation pipeline, model architecture design, flow formulation, and advanced infrastructure for efficient and robust large-scale training. The Goku models demonstrate superior performance in both qualitative and quantitative evaluations, setting new benchmarks across major tasks. Specifically, Goku achieves 0.76 on GenEval and 83.65 on DPG-Bench for text-to-image generation, and 84.85 on VBench for text-to-video tasks. We believe that this work provides valuable insights and practical advancements for the research community in developing joint image-and-video generation models.

Summary

AI-Generated Summary

PDF10412February 10, 2025