ChatPaper.aiChatPaper

Waver: Crie Vídeos Realistas com um Movimento de Ondas

Waver: Wave Your Way to Lifelike Video Generation

August 21, 2025
Autores: Yifu Zhang, Hao Yang, Yuqi Zhang, Yifei Hu, Fengda Zhu, Chuang Lin, Xiaofeng Mei, Yi Jiang, Zehuan Yuan, Bingyue Peng
cs.AI

Resumo

Apresentamos o Waver, um modelo base de alto desempenho para geração unificada de imagens e vídeos. O Waver pode gerar diretamente vídeos com durações entre 5 e 10 segundos em uma resolução nativa de 720p, que são posteriormente ampliados para 1080p. O modelo suporta simultaneamente a geração de texto para vídeo (T2V), imagem para vídeo (I2V) e texto para imagem (T2I) em um único framework integrado. Introduzimos uma arquitetura Hybrid Stream DiT para aprimorar o alinhamento de modalidades e acelerar a convergência do treinamento. Para garantir a qualidade dos dados de treinamento, estabelecemos um pipeline abrangente de curadoria de dados e anotamos e treinamos manualmente um modelo de qualidade de vídeo baseado em MLLM para filtrar as amostras de mais alta qualidade. Além disso, fornecemos receitas detalhadas de treinamento e inferência para facilitar a geração de vídeos de alta qualidade. Com base nessas contribuições, o Waver se destaca na captura de movimentos complexos, alcançando amplitude de movimento superior e consistência temporal na síntese de vídeos. Notavelmente, ele está entre os 3 primeiros nos rankings T2V e I2V da Artificial Analysis (dados de 30/07/2025, 10:00 GMT+8), superando consistentemente os modelos open-source existentes e igualando ou superando as soluções comerciais state-of-the-art. Esperamos que este relatório técnico ajude a comunidade a treinar modelos de geração de vídeo de alta qualidade de forma mais eficiente e a acelerar o progresso nas tecnologias de geração de vídeo. Página oficial: https://github.com/FoundationVision/Waver.
English
We present Waver, a high-performance foundation model for unified image and video generation. Waver can directly generate videos with durations ranging from 5 to 10 seconds at a native resolution of 720p, which are subsequently upscaled to 1080p. The model simultaneously supports text-to-video (T2V), image-to-video (I2V), and text-to-image (T2I) generation within a single, integrated framework. We introduce a Hybrid Stream DiT architecture to enhance modality alignment and accelerate training convergence. To ensure training data quality, we establish a comprehensive data curation pipeline and manually annotate and train an MLLM-based video quality model to filter for the highest-quality samples. Furthermore, we provide detailed training and inference recipes to facilitate the generation of high-quality videos. Building on these contributions, Waver excels at capturing complex motion, achieving superior motion amplitude and temporal consistency in video synthesis. Notably, it ranks among the Top 3 on both the T2V and I2V leaderboards at Artificial Analysis (data as of 2025-07-30 10:00 GMT+8), consistently outperforming existing open-source models and matching or surpassing state-of-the-art commercial solutions. We hope this technical report will help the community more efficiently train high-quality video generation models and accelerate progress in video generation technologies. Official page: https://github.com/FoundationVision/Waver.
PDF333August 22, 2025