ChatPaper.aiChatPaper

Waver: Generazione di Video Realistici con un'onda della Mano

Waver: Wave Your Way to Lifelike Video Generation

August 21, 2025
Autori: Yifu Zhang, Hao Yang, Yuqi Zhang, Yifei Hu, Fengda Zhu, Chuang Lin, Xiaofeng Mei, Yi Jiang, Zehuan Yuan, Bingyue Peng
cs.AI

Abstract

Presentiamo Waver, un modello di base ad alte prestazioni per la generazione unificata di immagini e video. Waver è in grado di generare direttamente video con una durata compresa tra 5 e 10 secondi a una risoluzione nativa di 720p, che vengono successivamente upscalati a 1080p. Il modello supporta contemporaneamente la generazione da testo a video (T2V), da immagine a video (I2V) e da testo a immagine (T2I) all'interno di un unico framework integrato. Introduciamo un'architettura Hybrid Stream DiT per migliorare l'allineamento delle modalità e accelerare la convergenza dell'addestramento. Per garantire la qualità dei dati di addestramento, abbiamo stabilito una pipeline completa di curatela dei dati e abbiamo annotato manualmente e addestrato un modello di qualità video basato su MLLM per filtrare i campioni di qualità più elevata. Inoltre, forniamo ricette dettagliate per l'addestramento e l'inferenza per facilitare la generazione di video di alta qualità. Basandoci su questi contributi, Waver eccelle nel catturare movimenti complessi, raggiungendo un'ampiezza del movimento superiore e una coerenza temporale nella sintesi video. In particolare, si colloca tra i primi 3 nelle classifiche T2V e I2V su Artificial Analysis (dati aggiornati al 30-07-2025 10:00 GMT+8), superando costantemente i modelli open-source esistenti e eguagliando o superando le soluzioni commerciali all'avanguardia. Speriamo che questo rapporto tecnico aiuti la comunità a addestrare in modo più efficiente modelli di generazione video di alta qualità e ad accelerare i progressi nelle tecnologie di generazione video. Pagina ufficiale: https://github.com/FoundationVision/Waver.
English
We present Waver, a high-performance foundation model for unified image and video generation. Waver can directly generate videos with durations ranging from 5 to 10 seconds at a native resolution of 720p, which are subsequently upscaled to 1080p. The model simultaneously supports text-to-video (T2V), image-to-video (I2V), and text-to-image (T2I) generation within a single, integrated framework. We introduce a Hybrid Stream DiT architecture to enhance modality alignment and accelerate training convergence. To ensure training data quality, we establish a comprehensive data curation pipeline and manually annotate and train an MLLM-based video quality model to filter for the highest-quality samples. Furthermore, we provide detailed training and inference recipes to facilitate the generation of high-quality videos. Building on these contributions, Waver excels at capturing complex motion, achieving superior motion amplitude and temporal consistency in video synthesis. Notably, it ranks among the Top 3 on both the T2V and I2V leaderboards at Artificial Analysis (data as of 2025-07-30 10:00 GMT+8), consistently outperforming existing open-source models and matching or surpassing state-of-the-art commercial solutions. We hope this technical report will help the community more efficiently train high-quality video generation models and accelerate progress in video generation technologies. Official page: https://github.com/FoundationVision/Waver.
PDF334August 22, 2025