Waver: Genera videos realistas con el movimiento de tu mano

Resumen

Presentamos Waver, un modelo base de alto rendimiento para la generación unificada de imágenes y videos. Waver puede generar directamente videos con duraciones que van desde 5 hasta 10 segundos a una resolución nativa de 720p, los cuales posteriormente se escalan a 1080p. El modelo soporta simultáneamente la generación de texto a video (T2V), imagen a video (I2V) y texto a imagen (T2I) dentro de un único marco integrado. Introducimos una arquitectura DiT de Flujo Híbrido para mejorar la alineación de modalidades y acelerar la convergencia del entrenamiento. Para garantizar la calidad de los datos de entrenamiento, establecemos una canalización integral de curación de datos y entrenamos manualmente un modelo de calidad de video basado en MLLM para filtrar las muestras de mayor calidad. Además, proporcionamos recetas detalladas de entrenamiento e inferencia para facilitar la generación de videos de alta calidad. Basándonos en estas contribuciones, Waver sobresale en la captura de movimientos complejos, logrando una amplitud de movimiento superior y consistencia temporal en la síntesis de videos. Cabe destacar que se encuentra entre los 3 primeros en las clasificaciones de T2V e I2V en Artificial Analysis (datos al 30-07-2025 10:00 GMT+8), superando consistentemente los modelos de código abierto existentes e igualando o superando las soluciones comerciales más avanzadas. Esperamos que este informe técnico ayude a la comunidad a entrenar de manera más eficiente modelos de generación de videos de alta calidad y acelere el progreso en las tecnologías de generación de videos. Página oficial: https://github.com/FoundationVision/Waver.

English

We present Waver, a high-performance foundation model for unified image and video generation. Waver can directly generate videos with durations ranging from 5 to 10 seconds at a native resolution of 720p, which are subsequently upscaled to 1080p. The model simultaneously supports text-to-video (T2V), image-to-video (I2V), and text-to-image (T2I) generation within a single, integrated framework. We introduce a Hybrid Stream DiT architecture to enhance modality alignment and accelerate training convergence. To ensure training data quality, we establish a comprehensive data curation pipeline and manually annotate and train an MLLM-based video quality model to filter for the highest-quality samples. Furthermore, we provide detailed training and inference recipes to facilitate the generation of high-quality videos. Building on these contributions, Waver excels at capturing complex motion, achieving superior motion amplitude and temporal consistency in video synthesis. Notably, it ranks among the Top 3 on both the T2V and I2V leaderboards at Artificial Analysis (data as of 2025-07-30 10:00 GMT+8), consistently outperforming existing open-source models and matching or surpassing state-of-the-art commercial solutions. We hope this technical report will help the community more efficiently train high-quality video generation models and accelerate progress in video generation technologies. Official page: https://github.com/FoundationVision/Waver.

Waver: Genera videos realistas con el movimiento de tu mano

Waver: Wave Your Way to Lifelike Video Generation

Resumen

Support