Wan: Открытые и продвинутые генеративные модели для крупномасштабного видео
Wan: Open and Advanced Large-Scale Video Generative Models
March 26, 2025
Авторы: WanTeam, Ang Wang, Baole Ai, Bin Wen, Chaojie Mao, Chen-Wei Xie, Di Chen, Feiwu Yu, Haiming Zhao, Jianxiao Yang, Jianyuan Zeng, Jiayu Wang, Jingfeng Zhang, Jingren Zhou, Jinkai Wang, Jixuan Chen, Kai Zhu, Kang Zhao, Keyu Yan, Lianghua Huang, Mengyang Feng, Ningyi Zhang, Pandeng Li, Pingyu Wu, Ruihang Chu, Ruili Feng, Shiwei Zhang, Siyang Sun, Tao Fang, Tianxing Wang, Tianyi Gui, Tingyu Weng, Tong Shen, Wei Lin, Wei Wang, Wei Wang, Wenmeng Zhou, Wente Wang, Wenting Shen, Wenyuan Yu, Xianzhong Shi, Xiaoming Huang, Xin Xu, Yan Kou, Yangyu Lv, Yifei Li, Yijing Liu, Yiming Wang, Yingya Zhang, Yitong Huang, Yong Li, You Wu, Yu Liu, Yulin Pan, Yun Zheng, Yuntao Hong, Yupeng Shi, Yutong Feng, Zeyinzi Jiang, Zhen Han, Zhi-Fan Wu, Ziyu Liu
cs.AI
Аннотация
В данном отчете представлен Wan — комплексный и открытый набор базовых моделей для работы с видео, призванный расширить границы генерации видеоконтента. Основанный на популярной парадигме диффузионных трансформеров, Wan достигает значительных успехов в генеративных возможностях благодаря ряду инноваций, включая нашу новую VAE, масштабируемые стратегии предварительного обучения, тщательную подготовку крупномасштабных данных и автоматизированные метрики оценки. Эти вклады в совокупности повышают производительность и универсальность модели. В частности, Wan характеризуется четырьмя ключевыми особенностями: Лидирующая производительность: Модель Wan на 14 миллиардов параметров, обученная на огромном наборе данных, включающем миллиарды изображений и видео, демонстрирует законы масштабирования в генерации видео как в отношении данных, так и размера модели. Она стабильно превосходит существующие открытые модели, а также передовые коммерческие решения на множестве внутренних и внешних тестов, показывая явное и значительное превосходство в производительности. Универсальность: Wan предлагает две мощные модели — на 1,3 и 14 миллиардов параметров — для эффективности и производительности соответственно. Она также охватывает множество прикладных задач, включая генерацию видео из изображений, редактирование видео по инструкциям и создание персонализированных видео, охватывая до восьми различных задач. Эффективность для потребительского уровня: Модель на 1,3 миллиарда параметров демонстрирует исключительную эффективность использования ресурсов, требуя всего 8,19 ГБ видеопамяти, что делает её совместимой с широким спектром потребительских графических процессоров. Открытость: Мы открываем исходный код всей серии Wan, включая все модели, с целью способствовать развитию сообщества, занимающегося генерацией видео. Эта открытость направлена на значительное расширение творческих возможностей в производстве видео в индустрии и предоставление академическому сообществу высококачественных базовых моделей для работы с видео. Весь код и модели доступны по адресу https://github.com/Wan-Video/Wan2.1.
English
This report presents Wan, a comprehensive and open suite of video foundation
models designed to push the boundaries of video generation. Built upon the
mainstream diffusion transformer paradigm, Wan achieves significant
advancements in generative capabilities through a series of innovations,
including our novel VAE, scalable pre-training strategies, large-scale data
curation, and automated evaluation metrics. These contributions collectively
enhance the model's performance and versatility. Specifically, Wan is
characterized by four key features: Leading Performance: The 14B model of Wan,
trained on a vast dataset comprising billions of images and videos,
demonstrates the scaling laws of video generation with respect to both data and
model size. It consistently outperforms the existing open-source models as well
as state-of-the-art commercial solutions across multiple internal and external
benchmarks, demonstrating a clear and significant performance superiority.
Comprehensiveness: Wan offers two capable models, i.e., 1.3B and 14B
parameters, for efficiency and effectiveness respectively. It also covers
multiple downstream applications, including image-to-video, instruction-guided
video editing, and personal video generation, encompassing up to eight tasks.
Consumer-Grade Efficiency: The 1.3B model demonstrates exceptional resource
efficiency, requiring only 8.19 GB VRAM, making it compatible with a wide range
of consumer-grade GPUs. Openness: We open-source the entire series of Wan,
including source code and all models, with the goal of fostering the growth of
the video generation community. This openness seeks to significantly expand the
creative possibilities of video production in the industry and provide academia
with high-quality video foundation models. All the code and models are
available at https://github.com/Wan-Video/Wan2.1.Summary
AI-Generated Summary