ChatPaper.aiChatPaper

Waver: Создавайте реалистичные видео с помощью волновых технологий

Waver: Wave Your Way to Lifelike Video Generation

August 21, 2025
Авторы: Yifu Zhang, Hao Yang, Yuqi Zhang, Yifei Hu, Fengda Zhu, Chuang Lin, Xiaofeng Mei, Yi Jiang, Zehuan Yuan, Bingyue Peng
cs.AI

Аннотация

Мы представляем Waver, высокопроизводительную базовую модель для унифицированной генерации изображений и видео. Waver способен напрямую создавать видео продолжительностью от 5 до 10 секунд с нативным разрешением 720p, которые затем масштабируются до 1080p. Модель одновременно поддерживает генерацию видео из текста (T2V), видео из изображений (I2V) и изображений из текста (T2I) в рамках единой интегрированной архитектуры. Мы внедряем гибридную архитектуру Hybrid Stream DiT для улучшения согласованности модальностей и ускорения сходимости обучения. Для обеспечения качества обучающих данных мы разработали комплексный конвейер обработки данных и вручную аннотировали и обучили модель оценки качества видео на основе MLLM для фильтрации наиболее качественных образцов. Кроме того, мы предоставляем подробные рецепты обучения и вывода для облегчения генерации высококачественных видео. Благодаря этим вкладам, Waver демонстрирует превосходство в захвате сложных движений, достигая высокой амплитуды движения и временной согласованности в синтезе видео. Примечательно, что модель занимает место в Топ-3 на лидербордах T2V и I2V в Artificial Analysis (данные на 2025-07-30 10:00 GMT+8), стабильно превосходя существующие открытые модели и соперничая с передовыми коммерческими решениями. Мы надеемся, что этот технический отчет поможет сообществу более эффективно обучать модели генерации высококачественных видео и ускорит прогресс в технологиях видеогенерации. Официальная страница: https://github.com/FoundationVision/Waver.
English
We present Waver, a high-performance foundation model for unified image and video generation. Waver can directly generate videos with durations ranging from 5 to 10 seconds at a native resolution of 720p, which are subsequently upscaled to 1080p. The model simultaneously supports text-to-video (T2V), image-to-video (I2V), and text-to-image (T2I) generation within a single, integrated framework. We introduce a Hybrid Stream DiT architecture to enhance modality alignment and accelerate training convergence. To ensure training data quality, we establish a comprehensive data curation pipeline and manually annotate and train an MLLM-based video quality model to filter for the highest-quality samples. Furthermore, we provide detailed training and inference recipes to facilitate the generation of high-quality videos. Building on these contributions, Waver excels at capturing complex motion, achieving superior motion amplitude and temporal consistency in video synthesis. Notably, it ranks among the Top 3 on both the T2V and I2V leaderboards at Artificial Analysis (data as of 2025-07-30 10:00 GMT+8), consistently outperforming existing open-source models and matching or surpassing state-of-the-art commercial solutions. We hope this technical report will help the community more efficiently train high-quality video generation models and accelerate progress in video generation technologies. Official page: https://github.com/FoundationVision/Waver.
PDF333August 22, 2025