Goku: Modelos Fundamentales Generativos de Video Basados en Flujo
Goku: Flow Based Video Generative Foundation Models
February 7, 2025
Autores: Shoufa Chen, Chongjian Ge, Yuqi Zhang, Yida Zhang, Fengda Zhu, Hao Yang, Hongxiang Hao, Hui Wu, Zhichao Lai, Yifei Hu, Ting-Che Lin, Shilong Zhang, Fu Li, Chuan Li, Xing Wang, Yanghua Peng, Peize Sun, Ping Luo, Yi Jiang, Zehuan Yuan, Bingyue Peng, Xiaobing Liu
cs.AI
Resumen
Este documento presenta Goku, una familia de modelos de generación conjunta de imágenes y videos de última generación que aprovechan los Transformadores de flujo rectificado para lograr un rendimiento líder en la industria. Detallamos los elementos fundamentales que permiten una generación visual de alta calidad, incluida la canalización de curación de datos, el diseño de arquitectura del modelo, la formulación de flujo y la infraestructura avanzada para un entrenamiento eficiente y robusto a gran escala. Los modelos Goku demuestran un rendimiento superior tanto en evaluaciones cualitativas como cuantitativas, estableciendo nuevos puntos de referencia en tareas importantes. Específicamente, Goku logra 0.76 en GenEval y 83.65 en DPG-Bench para la generación de texto a imagen, y 84.85 en VBench para tareas de texto a video. Creemos que este trabajo proporciona ideas valiosas y avances prácticos para la comunidad de investigación en el desarrollo de modelos de generación conjunta de imágenes y videos.
English
This paper introduces Goku, a state-of-the-art family of joint
image-and-video generation models leveraging rectified flow Transformers to
achieve industry-leading performance. We detail the foundational elements
enabling high-quality visual generation, including the data curation pipeline,
model architecture design, flow formulation, and advanced infrastructure for
efficient and robust large-scale training. The Goku models demonstrate superior
performance in both qualitative and quantitative evaluations, setting new
benchmarks across major tasks. Specifically, Goku achieves 0.76 on GenEval and
83.65 on DPG-Bench for text-to-image generation, and 84.85 on VBench for
text-to-video tasks. We believe that this work provides valuable insights and
practical advancements for the research community in developing joint
image-and-video generation models.Summary
AI-Generated Summary