Waver : Créez des vidéos réalistes d'un simple geste
Waver: Wave Your Way to Lifelike Video Generation
August 21, 2025
papers.authors: Yifu Zhang, Hao Yang, Yuqi Zhang, Yifei Hu, Fengda Zhu, Chuang Lin, Xiaofeng Mei, Yi Jiang, Zehuan Yuan, Bingyue Peng
cs.AI
papers.abstract
Nous présentons Waver, un modèle de base haute performance pour la génération unifiée d'images et de vidéos. Waver peut directement générer des vidéos d'une durée allant de 5 à 10 secondes à une résolution native de 720p, qui sont ensuite upscalées à 1080p. Le modèle prend simultanément en charge la génération de texte à vidéo (T2V), d'image à vidéo (I2V) et de texte à image (T2I) dans un cadre unique et intégré. Nous introduisons une architecture DiT à flux hybride pour améliorer l'alignement des modalités et accélérer la convergence de l'entraînement. Pour garantir la qualité des données d'entraînement, nous mettons en place un pipeline complet de curation des données et annotons manuellement et entraînons un modèle de qualité vidéo basé sur MLLM pour filtrer les échantillons de la plus haute qualité. De plus, nous fournissons des recettes détaillées pour l'entraînement et l'inférence afin de faciliter la génération de vidéos de haute qualité. Sur la base de ces contributions, Waver excelle dans la capture de mouvements complexes, atteignant une amplitude de mouvement supérieure et une cohérence temporelle dans la synthèse vidéo. Notamment, il se classe parmi les 3 premiers sur les classements T2V et I2V d'Artificial Analysis (données au 30/07/2025 10:00 GMT+8), surpassant systématiquement les modèles open-source existants et égalant ou dépassant les solutions commerciales de pointe. Nous espérons que ce rapport technique aidera la communauté à entraîner plus efficacement des modèles de génération vidéo de haute qualité et à accélérer les progrès dans les technologies de génération vidéo. Page officielle : https://github.com/FoundationVision/Waver.
English
We present Waver, a high-performance foundation model for unified image and
video generation. Waver can directly generate videos with durations ranging
from 5 to 10 seconds at a native resolution of 720p, which are subsequently
upscaled to 1080p. The model simultaneously supports text-to-video (T2V),
image-to-video (I2V), and text-to-image (T2I) generation within a single,
integrated framework. We introduce a Hybrid Stream DiT architecture to enhance
modality alignment and accelerate training convergence. To ensure training data
quality, we establish a comprehensive data curation pipeline and manually
annotate and train an MLLM-based video quality model to filter for the
highest-quality samples. Furthermore, we provide detailed training and
inference recipes to facilitate the generation of high-quality videos. Building
on these contributions, Waver excels at capturing complex motion, achieving
superior motion amplitude and temporal consistency in video synthesis. Notably,
it ranks among the Top 3 on both the T2V and I2V leaderboards at Artificial
Analysis (data as of 2025-07-30 10:00 GMT+8), consistently outperforming
existing open-source models and matching or surpassing state-of-the-art
commercial solutions. We hope this technical report will help the community
more efficiently train high-quality video generation models and accelerate
progress in video generation technologies. Official page:
https://github.com/FoundationVision/Waver.