ChatPaper.aiChatPaper

Wan : Modèles génératifs vidéo à grande échelle ouverts et avancés

Wan: Open and Advanced Large-Scale Video Generative Models

March 26, 2025
Auteurs: WanTeam, Ang Wang, Baole Ai, Bin Wen, Chaojie Mao, Chen-Wei Xie, Di Chen, Feiwu Yu, Haiming Zhao, Jianxiao Yang, Jianyuan Zeng, Jiayu Wang, Jingfeng Zhang, Jingren Zhou, Jinkai Wang, Jixuan Chen, Kai Zhu, Kang Zhao, Keyu Yan, Lianghua Huang, Mengyang Feng, Ningyi Zhang, Pandeng Li, Pingyu Wu, Ruihang Chu, Ruili Feng, Shiwei Zhang, Siyang Sun, Tao Fang, Tianxing Wang, Tianyi Gui, Tingyu Weng, Tong Shen, Wei Lin, Wei Wang, Wei Wang, Wenmeng Zhou, Wente Wang, Wenting Shen, Wenyuan Yu, Xianzhong Shi, Xiaoming Huang, Xin Xu, Yan Kou, Yangyu Lv, Yifei Li, Yijing Liu, Yiming Wang, Yingya Zhang, Yitong Huang, Yong Li, You Wu, Yu Liu, Yulin Pan, Yun Zheng, Yuntao Hong, Yupeng Shi, Yutong Feng, Zeyinzi Jiang, Zhen Han, Zhi-Fan Wu, Ziyu Liu
cs.AI

Résumé

Ce rapport présente Wan, une suite complète et ouverte de modèles de base pour la génération vidéo, conçue pour repousser les limites de ce domaine. Basé sur le paradigme dominant des transformateurs de diffusion, Wan réalise des avancées significatives en matière de capacités génératives grâce à une série d'innovations, notamment notre nouveau VAE, des stratégies de pré-entraînement évolutives, une curation de données à grande échelle et des métriques d'évaluation automatisées. Ces contributions améliorent collectivement les performances et la polyvalence du modèle. Plus précisément, Wan se distingue par quatre caractéristiques clés : Performance de pointe : Le modèle 14B de Wan, entraîné sur un vaste ensemble de données comprenant des milliards d'images et de vidéos, illustre les lois d'échelle de la génération vidéo en termes de données et de taille de modèle. Il surpasse systématiquement les modèles open-source existants ainsi que les solutions commerciales de pointe sur plusieurs benchmarks internes et externes, démontrant une supériorité de performance claire et significative. Exhaustivité : Wan propose deux modèles performants, respectivement 1,3B et 14B de paramètres, pour l'efficacité et l'efficience. Il couvre également plusieurs applications en aval, notamment la génération d'images vers vidéo, l'édition de vidéo guidée par instructions et la génération de vidéos personnelles, englobant jusqu'à huit tâches. Efficacité grand public : Le modèle 1,3B démontre une exceptionnelle efficacité des ressources, nécessitant seulement 8,19 Go de VRAM, ce qui le rend compatible avec une large gamme de GPU grand public. Ouverture : Nous rendons open-source toute la série Wan, y compris le code source et tous les modèles, dans le but de favoriser la croissance de la communauté de génération vidéo. Cette ouverture vise à élargir considérablement les possibilités créatives de production vidéo dans l'industrie et à fournir à la communauté académique des modèles de base vidéo de haute qualité. L'ensemble du code et des modèles est disponible à l'adresse suivante : https://github.com/Wan-Video/Wan2.1.
English
This report presents Wan, a comprehensive and open suite of video foundation models designed to push the boundaries of video generation. Built upon the mainstream diffusion transformer paradigm, Wan achieves significant advancements in generative capabilities through a series of innovations, including our novel VAE, scalable pre-training strategies, large-scale data curation, and automated evaluation metrics. These contributions collectively enhance the model's performance and versatility. Specifically, Wan is characterized by four key features: Leading Performance: The 14B model of Wan, trained on a vast dataset comprising billions of images and videos, demonstrates the scaling laws of video generation with respect to both data and model size. It consistently outperforms the existing open-source models as well as state-of-the-art commercial solutions across multiple internal and external benchmarks, demonstrating a clear and significant performance superiority. Comprehensiveness: Wan offers two capable models, i.e., 1.3B and 14B parameters, for efficiency and effectiveness respectively. It also covers multiple downstream applications, including image-to-video, instruction-guided video editing, and personal video generation, encompassing up to eight tasks. Consumer-Grade Efficiency: The 1.3B model demonstrates exceptional resource efficiency, requiring only 8.19 GB VRAM, making it compatible with a wide range of consumer-grade GPUs. Openness: We open-source the entire series of Wan, including source code and all models, with the goal of fostering the growth of the video generation community. This openness seeks to significantly expand the creative possibilities of video production in the industry and provide academia with high-quality video foundation models. All the code and models are available at https://github.com/Wan-Video/Wan2.1.

Summary

AI-Generated Summary

PDF502March 27, 2025