Wan: 개방형 및 고급 대규모 비디오 생성 모델
Wan: Open and Advanced Large-Scale Video Generative Models
March 26, 2025
저자: WanTeam, Ang Wang, Baole Ai, Bin Wen, Chaojie Mao, Chen-Wei Xie, Di Chen, Feiwu Yu, Haiming Zhao, Jianxiao Yang, Jianyuan Zeng, Jiayu Wang, Jingfeng Zhang, Jingren Zhou, Jinkai Wang, Jixuan Chen, Kai Zhu, Kang Zhao, Keyu Yan, Lianghua Huang, Mengyang Feng, Ningyi Zhang, Pandeng Li, Pingyu Wu, Ruihang Chu, Ruili Feng, Shiwei Zhang, Siyang Sun, Tao Fang, Tianxing Wang, Tianyi Gui, Tingyu Weng, Tong Shen, Wei Lin, Wei Wang, Wei Wang, Wenmeng Zhou, Wente Wang, Wenting Shen, Wenyuan Yu, Xianzhong Shi, Xiaoming Huang, Xin Xu, Yan Kou, Yangyu Lv, Yifei Li, Yijing Liu, Yiming Wang, Yingya Zhang, Yitong Huang, Yong Li, You Wu, Yu Liu, Yulin Pan, Yun Zheng, Yuntao Hong, Yupeng Shi, Yutong Feng, Zeyinzi Jiang, Zhen Han, Zhi-Fan Wu, Ziyu Liu
cs.AI
초록
본 보고서는 비디오 생성의 한계를 넓히기 위해 설계된 포괄적이고 개방형 비디오 기반 모델 제품군인 Wan을 소개합니다. 주류 확산 트랜스포머 패러다임을 기반으로 구축된 Wan은 혁신적인 VAE, 확장 가능한 사전 학습 전략, 대규모 데이터 큐레이션, 자동화된 평가 메트릭 등 일련의 혁신을 통해 생성 능력에서 상당한 진전을 이루었습니다. 이러한 기여들은 모델의 성능과 다용성을 종합적으로 향상시켰습니다. 구체적으로 Wan은 다음과 같은 네 가지 주요 특징을 가지고 있습니다: 선도적인 성능: 수십억 장의 이미지와 비디오로 구성된 방대한 데이터셋으로 학습된 Wan의 14B 모델은 데이터 및 모델 크기에 대한 비디오 생성의 스케일링 법칙을 입증합니다. 이 모델은 여러 내부 및 외부 벤치마크에서 기존의 오픈소스 모델과 최신 상용 솔루션을 일관되게 능가하며, 명확하고 상당한 성능 우위를 보여줍니다. 포괄성: Wan은 효율성과 효과성을 위해 각각 1.3B와 14B 파라미터를 가진 두 가지 유능한 모델을 제공합니다. 또한 이미지-투-비디오, 지시 기반 비디오 편집, 개인화 비디오 생성 등 최대 8가지 작업을 포함한 다양한 다운스트림 애플리케이션을 다룹니다. 소비자급 효율성: 1.3B 모델은 8.19GB의 VRAM만 필요로 하는 탁월한 자원 효율성을 보여주며, 이는 다양한 소비자급 GPU와 호환됩니다. 개방성: 우리는 비디오 생성 커뮤니티의 성장을 촉진하기 위해 소스 코드와 모든 모델을 포함한 Wan 시리즈 전체를 오픈소스로 공개합니다. 이러한 개방성은 산업계에서 비디오 제작의 창의적 가능성을 크게 확장하고 학계에 고품질의 비디오 기반 모델을 제공하기 위한 것입니다. 모든 코드와 모델은 https://github.com/Wan-Video/Wan2.1에서 확인할 수 있습니다.
English
This report presents Wan, a comprehensive and open suite of video foundation
models designed to push the boundaries of video generation. Built upon the
mainstream diffusion transformer paradigm, Wan achieves significant
advancements in generative capabilities through a series of innovations,
including our novel VAE, scalable pre-training strategies, large-scale data
curation, and automated evaluation metrics. These contributions collectively
enhance the model's performance and versatility. Specifically, Wan is
characterized by four key features: Leading Performance: The 14B model of Wan,
trained on a vast dataset comprising billions of images and videos,
demonstrates the scaling laws of video generation with respect to both data and
model size. It consistently outperforms the existing open-source models as well
as state-of-the-art commercial solutions across multiple internal and external
benchmarks, demonstrating a clear and significant performance superiority.
Comprehensiveness: Wan offers two capable models, i.e., 1.3B and 14B
parameters, for efficiency and effectiveness respectively. It also covers
multiple downstream applications, including image-to-video, instruction-guided
video editing, and personal video generation, encompassing up to eight tasks.
Consumer-Grade Efficiency: The 1.3B model demonstrates exceptional resource
efficiency, requiring only 8.19 GB VRAM, making it compatible with a wide range
of consumer-grade GPUs. Openness: We open-source the entire series of Wan,
including source code and all models, with the goal of fostering the growth of
the video generation community. This openness seeks to significantly expand the
creative possibilities of video production in the industry and provide academia
with high-quality video foundation models. All the code and models are
available at https://github.com/Wan-Video/Wan2.1.Summary
AI-Generated Summary