ChatPaper.aiChatPaper

Waver: Beweeg je Weg naar Levensechte Videogeneratie

Waver: Wave Your Way to Lifelike Video Generation

August 21, 2025
Auteurs: Yifu Zhang, Hao Yang, Yuqi Zhang, Yifei Hu, Fengda Zhu, Chuang Lin, Xiaofeng Mei, Yi Jiang, Zehuan Yuan, Bingyue Peng
cs.AI

Samenvatting

We presenteren Waver, een hoogwaardig foundation-model voor geïntegreerde beeld- en videogeneratie. Waver kan direct video's genereren met een duur van 5 tot 10 seconden op een native resolutie van 720p, die vervolgens worden opgeschaald naar 1080p. Het model ondersteunt tegelijkertijd tekst-naar-video (T2V), beeld-naar-video (I2V) en tekst-naar-beeld (T2I) generatie binnen een enkel, geïntegreerd framework. We introduceren een Hybrid Stream DiT-architectuur om de modaliteitsuitlijning te verbeteren en de trainingsconvergentie te versnellen. Om de kwaliteit van de trainingsdata te waarborgen, hebben we een uitgebreid datacuratiepijplijn opgezet en handmatig een MLLM-gebaseerd videokwaliteitsmodel geannoteerd en getraind om de hoogste kwaliteit samples te filteren. Daarnaast bieden we gedetailleerde trainings- en inferentierecepten om de generatie van hoogwaardige video's te vergemakkelijken. Op basis van deze bijdragen blinkt Waver uit in het vastleggen van complexe bewegingen, waarbij het superieure bewegingsamplitude en temporele consistentie bereikt in videosynthese. Opmerkelijk is dat het tot de Top 3 behoort op zowel de T2V- als I2V-leaderboards bij Artificial Analysis (gegevens per 2025-07-30 10:00 GMT+8), waarbij het consistent beter presteert dan bestaande open-source modellen en gelijkwaardig of beter is dan state-of-the-art commerciële oplossingen. We hopen dat dit technische rapport de gemeenschap zal helpen om efficiënter hoogwaardige videogeneratiemodellen te trainen en de vooruitgang in videogeneratietechnologieën te versnellen. Officiële pagina: https://github.com/FoundationVision/Waver.
English
We present Waver, a high-performance foundation model for unified image and video generation. Waver can directly generate videos with durations ranging from 5 to 10 seconds at a native resolution of 720p, which are subsequently upscaled to 1080p. The model simultaneously supports text-to-video (T2V), image-to-video (I2V), and text-to-image (T2I) generation within a single, integrated framework. We introduce a Hybrid Stream DiT architecture to enhance modality alignment and accelerate training convergence. To ensure training data quality, we establish a comprehensive data curation pipeline and manually annotate and train an MLLM-based video quality model to filter for the highest-quality samples. Furthermore, we provide detailed training and inference recipes to facilitate the generation of high-quality videos. Building on these contributions, Waver excels at capturing complex motion, achieving superior motion amplitude and temporal consistency in video synthesis. Notably, it ranks among the Top 3 on both the T2V and I2V leaderboards at Artificial Analysis (data as of 2025-07-30 10:00 GMT+8), consistently outperforming existing open-source models and matching or surpassing state-of-the-art commercial solutions. We hope this technical report will help the community more efficiently train high-quality video generation models and accelerate progress in video generation technologies. Official page: https://github.com/FoundationVision/Waver.
PDF334August 22, 2025