ChatPaper.aiChatPaper

Goku: Modelos Fundamentais Generativos de Vídeo Baseados em Fluxo

Goku: Flow Based Video Generative Foundation Models

February 7, 2025
Autores: Shoufa Chen, Chongjian Ge, Yuqi Zhang, Yida Zhang, Fengda Zhu, Hao Yang, Hongxiang Hao, Hui Wu, Zhichao Lai, Yifei Hu, Ting-Che Lin, Shilong Zhang, Fu Li, Chuan Li, Xing Wang, Yanghua Peng, Peize Sun, Ping Luo, Yi Jiang, Zehuan Yuan, Bingyue Peng, Xiaobing Liu
cs.AI

Resumo

Este artigo apresenta Goku, uma família de modelos de geração conjunta de imagens e vídeos de última geração que utilizam Transformadores de fluxo retificado para alcançar um desempenho líder na indústria. Detalhamos os elementos fundamentais que possibilitam a geração visual de alta qualidade, incluindo o pipeline de curadoria de dados, o design da arquitetura do modelo, a formulação de fluxo e a infraestrutura avançada para treinamento eficiente e robusto em larga escala. Os modelos Goku demonstram desempenho superior em avaliações qualitativas e quantitativas, estabelecendo novos padrões em importantes tarefas. Especificamente, Goku alcança 0,76 no GenEval e 83,65 no DPG-Bench para geração de texto para imagem, e 84,85 no VBench para tarefas de texto para vídeo. Acreditamos que este trabalho fornece insights valiosos e avanços práticos para a comunidade de pesquisa no desenvolvimento de modelos de geração conjunta de imagens e vídeos.
English
This paper introduces Goku, a state-of-the-art family of joint image-and-video generation models leveraging rectified flow Transformers to achieve industry-leading performance. We detail the foundational elements enabling high-quality visual generation, including the data curation pipeline, model architecture design, flow formulation, and advanced infrastructure for efficient and robust large-scale training. The Goku models demonstrate superior performance in both qualitative and quantitative evaluations, setting new benchmarks across major tasks. Specifically, Goku achieves 0.76 on GenEval and 83.65 on DPG-Bench for text-to-image generation, and 84.85 on VBench for text-to-video tasks. We believe that this work provides valuable insights and practical advancements for the research community in developing joint image-and-video generation models.

Summary

AI-Generated Summary

PDF10412February 10, 2025