Waver: Erzeugen Sie lebensechte Videos auf Ihre Weise
Waver: Wave Your Way to Lifelike Video Generation
August 21, 2025
papers.authors: Yifu Zhang, Hao Yang, Yuqi Zhang, Yifei Hu, Fengda Zhu, Chuang Lin, Xiaofeng Mei, Yi Jiang, Zehuan Yuan, Bingyue Peng
cs.AI
papers.abstract
Wir präsentieren Waver, ein leistungsstarkes Basismodell für die einheitliche Bild- und Videogenerierung. Waver kann direkt Videos mit einer Dauer von 5 bis 10 Sekunden in einer nativen Auflösung von 720p erzeugen, die anschließend auf 1080p hochskaliert werden. Das Modell unterstützt gleichzeitig Text-zu-Video (T2V), Bild-zu-Video (I2V) und Text-zu-Bild (T2I) Generierung innerhalb eines einzigen, integrierten Frameworks. Wir führen eine Hybrid Stream DiT-Architektur ein, um die Modalitätsausrichtung zu verbessern und die Trainingskonvergenz zu beschleunigen. Um die Qualität der Trainingsdaten sicherzustellen, etablieren wir einen umfassenden Datenkuratierungsprozess und annotieren und trainieren manuell ein MLLM-basiertes Videoqualitätsmodell, um die qualitativ hochwertigsten Proben zu filtern. Darüber hinaus stellen wir detaillierte Trainings- und Inferenzrezepte zur Verfügung, um die Generierung hochwertiger Videos zu erleichtern. Aufbauend auf diesen Beiträgen zeichnet sich Waver durch die Erfassung komplexer Bewegungen aus und erreicht eine überlegene Bewegungsamplitude und zeitliche Konsistenz in der Videosynthese. Bemerkenswerterweise belegt es sowohl in den T2V- als auch in den I2V-Ranglisten von Artificial Analysis (Datenstand: 2025-07-30 10:00 GMT+8) einen Platz unter den Top 3 und übertrifft dabei konsequent bestehende Open-Source-Modelle und erreicht oder übertrifft state-of-the-art kommerzielle Lösungen. Wir hoffen, dass dieser technische Bericht der Gemeinschaft dabei helfen wird, effizienter hochwertige Videogenerierungsmodelle zu trainieren und den Fortschritt in der Videogenerierungstechnologie zu beschleunigen. Offizielle Seite: https://github.com/FoundationVision/Waver.
English
We present Waver, a high-performance foundation model for unified image and
video generation. Waver can directly generate videos with durations ranging
from 5 to 10 seconds at a native resolution of 720p, which are subsequently
upscaled to 1080p. The model simultaneously supports text-to-video (T2V),
image-to-video (I2V), and text-to-image (T2I) generation within a single,
integrated framework. We introduce a Hybrid Stream DiT architecture to enhance
modality alignment and accelerate training convergence. To ensure training data
quality, we establish a comprehensive data curation pipeline and manually
annotate and train an MLLM-based video quality model to filter for the
highest-quality samples. Furthermore, we provide detailed training and
inference recipes to facilitate the generation of high-quality videos. Building
on these contributions, Waver excels at capturing complex motion, achieving
superior motion amplitude and temporal consistency in video synthesis. Notably,
it ranks among the Top 3 on both the T2V and I2V leaderboards at Artificial
Analysis (data as of 2025-07-30 10:00 GMT+8), consistently outperforming
existing open-source models and matching or surpassing state-of-the-art
commercial solutions. We hope this technical report will help the community
more efficiently train high-quality video generation models and accelerate
progress in video generation technologies. Official page:
https://github.com/FoundationVision/Waver.