Waver: Generazione di Video Realistici con un'onda della Mano

Abstract

Presentiamo Waver, un modello di base ad alte prestazioni per la generazione unificata di immagini e video. Waver è in grado di generare direttamente video con una durata compresa tra 5 e 10 secondi a una risoluzione nativa di 720p, che vengono successivamente upscalati a 1080p. Il modello supporta contemporaneamente la generazione da testo a video (T2V), da immagine a video (I2V) e da testo a immagine (T2I) all'interno di un unico framework integrato. Introduciamo un'architettura Hybrid Stream DiT per migliorare l'allineamento delle modalità e accelerare la convergenza dell'addestramento. Per garantire la qualità dei dati di addestramento, abbiamo stabilito una pipeline completa di curatela dei dati e abbiamo annotato manualmente e addestrato un modello di qualità video basato su MLLM per filtrare i campioni di qualità più elevata. Inoltre, forniamo ricette dettagliate per l'addestramento e l'inferenza per facilitare la generazione di video di alta qualità. Basandoci su questi contributi, Waver eccelle nel catturare movimenti complessi, raggiungendo un'ampiezza del movimento superiore e una coerenza temporale nella sintesi video. In particolare, si colloca tra i primi 3 nelle classifiche T2V e I2V su Artificial Analysis (dati aggiornati al 30-07-2025 10:00 GMT+8), superando costantemente i modelli open-source esistenti e eguagliando o superando le soluzioni commerciali all'avanguardia. Speriamo che questo rapporto tecnico aiuti la comunità a addestrare in modo più efficiente modelli di generazione video di alta qualità e ad accelerare i progressi nelle tecnologie di generazione video. Pagina ufficiale: https://github.com/FoundationVision/Waver.

English

We present Waver, a high-performance foundation model for unified image and video generation. Waver can directly generate videos with durations ranging from 5 to 10 seconds at a native resolution of 720p, which are subsequently upscaled to 1080p. The model simultaneously supports text-to-video (T2V), image-to-video (I2V), and text-to-image (T2I) generation within a single, integrated framework. We introduce a Hybrid Stream DiT architecture to enhance modality alignment and accelerate training convergence. To ensure training data quality, we establish a comprehensive data curation pipeline and manually annotate and train an MLLM-based video quality model to filter for the highest-quality samples. Furthermore, we provide detailed training and inference recipes to facilitate the generation of high-quality videos. Building on these contributions, Waver excels at capturing complex motion, achieving superior motion amplitude and temporal consistency in video synthesis. Notably, it ranks among the Top 3 on both the T2V and I2V leaderboards at Artificial Analysis (data as of 2025-07-30 10:00 GMT+8), consistently outperforming existing open-source models and matching or surpassing state-of-the-art commercial solutions. We hope this technical report will help the community more efficiently train high-quality video generation models and accelerate progress in video generation technologies. Official page: https://github.com/FoundationVision/Waver.

Waver: Generazione di Video Realistici con un'onda della Mano

Waver: Wave Your Way to Lifelike Video Generation

Abstract

Support