Wan: Open en Geavanceerde Grootschalige Videogeneratieve Modellen

Samenvatting

Dit rapport presenteert Wan, een uitgebreide en open suite van videofundamentmodellen die zijn ontworpen om de grenzen van videogeneratie te verleggen. Gebouwd op het mainstream diffusion transformer-paradigma, bereikt Wan aanzienlijke vooruitgang in generatieve mogelijkheden door een reeks innovaties, waaronder onze nieuwe VAE, schaalbare pre-trainingsstrategieën, grootschalige datacuratie en geautomatiseerde evaluatiemetrics. Deze bijdragen versterken gezamenlijk de prestaties en veelzijdigheid van het model. Specifiek wordt Wan gekenmerkt door vier belangrijke kenmerken: Leidende Prestaties: Het 14B-model van Wan, getraind op een enorme dataset bestaande uit miljarden afbeeldingen en video's, toont de schaalwetten van videogeneratie met betrekking tot zowel data- als modelgrootte. Het presteert consistent beter dan de bestaande open-source modellen en state-of-the-art commerciële oplossingen op meerdere interne en externe benchmarks, wat een duidelijke en significante prestatie-superioriteit aantoont. Volledigheid: Wan biedt twee capabele modellen, namelijk 1.3B en 14B parameters, voor respectievelijk efficiëntie en effectiviteit. Het behandelt ook meerdere downstream-toepassingen, waaronder beeld-naar-video, instructiegestuurde videobewerking en persoonlijke videogeneratie, die tot acht taken omvatten. Consumenten-Grade Efficiëntie: Het 1.3B-model toont uitzonderlijke resource-efficiëntie, waarbij slechts 8,19 GB VRAM nodig is, waardoor het compatibel is met een breed scala aan consumenten-GPU's. Openheid: We open-sourcen de hele serie van Wan, inclusief broncode en alle modellen, met als doel de groei van de videogeneratiegemeenschap te bevorderen. Deze openheid beoogt de creatieve mogelijkheden van videoproductie in de industrie aanzienlijk uit te breiden en de academische wereld te voorzien van hoogwaardige videofundamentmodellen. Alle code en modellen zijn beschikbaar op https://github.com/Wan-Video/Wan2.1.

English

This report presents Wan, a comprehensive and open suite of video foundation models designed to push the boundaries of video generation. Built upon the mainstream diffusion transformer paradigm, Wan achieves significant advancements in generative capabilities through a series of innovations, including our novel VAE, scalable pre-training strategies, large-scale data curation, and automated evaluation metrics. These contributions collectively enhance the model's performance and versatility. Specifically, Wan is characterized by four key features: Leading Performance: The 14B model of Wan, trained on a vast dataset comprising billions of images and videos, demonstrates the scaling laws of video generation with respect to both data and model size. It consistently outperforms the existing open-source models as well as state-of-the-art commercial solutions across multiple internal and external benchmarks, demonstrating a clear and significant performance superiority. Comprehensiveness: Wan offers two capable models, i.e., 1.3B and 14B parameters, for efficiency and effectiveness respectively. It also covers multiple downstream applications, including image-to-video, instruction-guided video editing, and personal video generation, encompassing up to eight tasks. Consumer-Grade Efficiency: The 1.3B model demonstrates exceptional resource efficiency, requiring only 8.19 GB VRAM, making it compatible with a wide range of consumer-grade GPUs. Openness: We open-source the entire series of Wan, including source code and all models, with the goal of fostering the growth of the video generation community. This openness seeks to significantly expand the creative possibilities of video production in the industry and provide academia with high-quality video foundation models. All the code and models are available at https://github.com/Wan-Video/Wan2.1.

Wan: Open en Geavanceerde Grootschalige Videogeneratieve Modellen

Wan: Open and Advanced Large-Scale Video Generative Models

Samenvatting

Support