ChatPaper.aiChatPaper

Waver: Genera videos realistas con el movimiento de tu mano

Waver: Wave Your Way to Lifelike Video Generation

August 21, 2025
Autores: Yifu Zhang, Hao Yang, Yuqi Zhang, Yifei Hu, Fengda Zhu, Chuang Lin, Xiaofeng Mei, Yi Jiang, Zehuan Yuan, Bingyue Peng
cs.AI

Resumen

Presentamos Waver, un modelo base de alto rendimiento para la generación unificada de imágenes y videos. Waver puede generar directamente videos con duraciones que van desde 5 hasta 10 segundos a una resolución nativa de 720p, los cuales posteriormente se escalan a 1080p. El modelo soporta simultáneamente la generación de texto a video (T2V), imagen a video (I2V) y texto a imagen (T2I) dentro de un único marco integrado. Introducimos una arquitectura DiT de Flujo Híbrido para mejorar la alineación de modalidades y acelerar la convergencia del entrenamiento. Para garantizar la calidad de los datos de entrenamiento, establecemos una canalización integral de curación de datos y entrenamos manualmente un modelo de calidad de video basado en MLLM para filtrar las muestras de mayor calidad. Además, proporcionamos recetas detalladas de entrenamiento e inferencia para facilitar la generación de videos de alta calidad. Basándonos en estas contribuciones, Waver sobresale en la captura de movimientos complejos, logrando una amplitud de movimiento superior y consistencia temporal en la síntesis de videos. Cabe destacar que se encuentra entre los 3 primeros en las clasificaciones de T2V e I2V en Artificial Analysis (datos al 30-07-2025 10:00 GMT+8), superando consistentemente los modelos de código abierto existentes e igualando o superando las soluciones comerciales más avanzadas. Esperamos que este informe técnico ayude a la comunidad a entrenar de manera más eficiente modelos de generación de videos de alta calidad y acelere el progreso en las tecnologías de generación de videos. Página oficial: https://github.com/FoundationVision/Waver.
English
We present Waver, a high-performance foundation model for unified image and video generation. Waver can directly generate videos with durations ranging from 5 to 10 seconds at a native resolution of 720p, which are subsequently upscaled to 1080p. The model simultaneously supports text-to-video (T2V), image-to-video (I2V), and text-to-image (T2I) generation within a single, integrated framework. We introduce a Hybrid Stream DiT architecture to enhance modality alignment and accelerate training convergence. To ensure training data quality, we establish a comprehensive data curation pipeline and manually annotate and train an MLLM-based video quality model to filter for the highest-quality samples. Furthermore, we provide detailed training and inference recipes to facilitate the generation of high-quality videos. Building on these contributions, Waver excels at capturing complex motion, achieving superior motion amplitude and temporal consistency in video synthesis. Notably, it ranks among the Top 3 on both the T2V and I2V leaderboards at Artificial Analysis (data as of 2025-07-30 10:00 GMT+8), consistently outperforming existing open-source models and matching or surpassing state-of-the-art commercial solutions. We hope this technical report will help the community more efficiently train high-quality video generation models and accelerate progress in video generation technologies. Official page: https://github.com/FoundationVision/Waver.
PDF333August 22, 2025