ChatPaper.aiChatPaper

Wan: Modelos Generativos de Vídeo em Grande Escala, Abertos e Avançados

Wan: Open and Advanced Large-Scale Video Generative Models

March 26, 2025
Autores: WanTeam, Ang Wang, Baole Ai, Bin Wen, Chaojie Mao, Chen-Wei Xie, Di Chen, Feiwu Yu, Haiming Zhao, Jianxiao Yang, Jianyuan Zeng, Jiayu Wang, Jingfeng Zhang, Jingren Zhou, Jinkai Wang, Jixuan Chen, Kai Zhu, Kang Zhao, Keyu Yan, Lianghua Huang, Mengyang Feng, Ningyi Zhang, Pandeng Li, Pingyu Wu, Ruihang Chu, Ruili Feng, Shiwei Zhang, Siyang Sun, Tao Fang, Tianxing Wang, Tianyi Gui, Tingyu Weng, Tong Shen, Wei Lin, Wei Wang, Wei Wang, Wenmeng Zhou, Wente Wang, Wenting Shen, Wenyuan Yu, Xianzhong Shi, Xiaoming Huang, Xin Xu, Yan Kou, Yangyu Lv, Yifei Li, Yijing Liu, Yiming Wang, Yingya Zhang, Yitong Huang, Yong Li, You Wu, Yu Liu, Yulin Pan, Yun Zheng, Yuntao Hong, Yupeng Shi, Yutong Feng, Zeyinzi Jiang, Zhen Han, Zhi-Fan Wu, Ziyu Liu
cs.AI

Resumo

Este relatório apresenta Wan, uma suíte abrangente e aberta de modelos de base para vídeo projetada para expandir os limites da geração de vídeo. Construído sobre o paradigma dominante de transformadores de difusão, Wan alcança avanços significativos em capacidades generativas por meio de uma série de inovações, incluindo nosso novo VAE, estratégias escaláveis de pré-treinamento, curadoria de dados em larga escala e métricas de avaliação automatizadas. Essas contribuições coletivamente aprimoram o desempenho e a versatilidade do modelo. Especificamente, Wan é caracterizado por quatro características principais: Desempenho Líder: O modelo de 14B do Wan, treinado em um vasto conjunto de dados que compreende bilhões de imagens e vídeos, demonstra as leis de escalabilidade da geração de vídeo em relação tanto ao tamanho dos dados quanto ao do modelo. Ele consistentemente supera os modelos de código aberto existentes, bem como as soluções comerciais de ponta em múltiplos benchmarks internos e externos, demonstrando uma superioridade de desempenho clara e significativa. Abrangência: Wan oferece dois modelos capazes, ou seja, 1.3B e 14B parâmetros, para eficiência e eficácia, respectivamente. Ele também cobre múltiplas aplicações downstream, incluindo geração de vídeo a partir de imagens, edição de vídeo guiada por instruções e geração de vídeos pessoais, abrangendo até oito tarefas. Eficiência de Consumo: O modelo de 1.3B demonstra uma eficiência excepcional de recursos, exigindo apenas 8.19 GB de VRAM, tornando-o compatível com uma ampla gama de GPUs de consumo. Abertura: Disponibilizamos o código-fonte de toda a série Wan, incluindo código-fonte e todos os modelos, com o objetivo de fomentar o crescimento da comunidade de geração de vídeo. Essa abertura busca expandir significativamente as possibilidades criativas de produção de vídeo na indústria e fornecer à academia modelos de base de vídeo de alta qualidade. Todo o código e modelos estão disponíveis em https://github.com/Wan-Video/Wan2.1.
English
This report presents Wan, a comprehensive and open suite of video foundation models designed to push the boundaries of video generation. Built upon the mainstream diffusion transformer paradigm, Wan achieves significant advancements in generative capabilities through a series of innovations, including our novel VAE, scalable pre-training strategies, large-scale data curation, and automated evaluation metrics. These contributions collectively enhance the model's performance and versatility. Specifically, Wan is characterized by four key features: Leading Performance: The 14B model of Wan, trained on a vast dataset comprising billions of images and videos, demonstrates the scaling laws of video generation with respect to both data and model size. It consistently outperforms the existing open-source models as well as state-of-the-art commercial solutions across multiple internal and external benchmarks, demonstrating a clear and significant performance superiority. Comprehensiveness: Wan offers two capable models, i.e., 1.3B and 14B parameters, for efficiency and effectiveness respectively. It also covers multiple downstream applications, including image-to-video, instruction-guided video editing, and personal video generation, encompassing up to eight tasks. Consumer-Grade Efficiency: The 1.3B model demonstrates exceptional resource efficiency, requiring only 8.19 GB VRAM, making it compatible with a wide range of consumer-grade GPUs. Openness: We open-source the entire series of Wan, including source code and all models, with the goal of fostering the growth of the video generation community. This openness seeks to significantly expand the creative possibilities of video production in the industry and provide academia with high-quality video foundation models. All the code and models are available at https://github.com/Wan-Video/Wan2.1.

Summary

AI-Generated Summary

PDF502March 27, 2025