Технический отчет по SkyReels-V3
SkyReels-V3 Technique Report
January 24, 2026
Авторы: Debang Li, Zhengcong Fei, Tuanhui Li, Yikun Dou, Zheng Chen, Jiangping Yang, Mingyuan Fan, Jingtao Xu, Jiahua Wang, Baoxuan Gu, Mingshan Chang, Yuqiang Xie, Binjie Mao, Youqiang Zhang, Nuo Pang, Hao Zhang, Yuzhe Jin, Zhiheng Xu, Dixuan Lin, Guibin Chen, Yahui Zhou
cs.AI
Аннотация
Генерация видео служит краеугольным камнем для построения мировых моделей, где мультимодальный контекстный вывод является определяющим тестом способностей. В этой связи мы представляем SkyReels-V3 — условную модель генерации видео, построенную на основе унифицированной мультимодальной структуры контекстного обучения с диффузионными трансформерами. Модель SkyReels-V3 поддерживает три основные генеративные парадигмы в единой архитектуре: синтез видео по референсным изображениям, расширение видео на основе видео и генерацию видео с аудио-гидом. (i) Модель генерации видео по референсным изображениям предназначена для создания высококачественных видео с сохранением идентичности объекта, временной согласованности и нарративной целостности. Для улучшения соответствия референсу и композиционной стабильности мы разработали комплексный конвейер обработки данных, использующий кросс-кадровое сопоставление, редактирование изображений и семантическое переписывание, что эффективно устраняет артефакты копирования. При обучении применяется гибридная стратегия работы с изображениями и видео в сочетании с совместной оптимизацией мульти-разрешения для повышения обобщающей способности и устойчивости в различных сценариях. (ii) Модель расширения видео интегрирует моделирование пространственно-временной согласованности с масштабным пониманием видео, обеспечивая как бесшовное продолжение одиночного кадра, так и интеллектуальное переключение между несколькими кадрами с профессиональными кинематографическими паттернами. (iii) Модель говорящего аватара поддерживает генерацию видео на уровне минут с аудио-условием за счёт обучения паттернов вставки первого и последнего кадров и реконструкции парадигм вывода ключевых кадров. На основе обеспечения визуального качества была оптимизирована синхронизация аудио и видео.
Многочисленные оценки демонстрируют, что SkyReels-V3 достигает передовых или близких к передовым результатов по ключевым метрикам, включая визуальное качество, следование инструкциям и специфические аспектные метрики, приближаясь к ведущим закрытым системам. Github: https://github.com/SkyworkAI/SkyReels-V3.
English
Video generation serves as a cornerstone for building world models, where multimodal contextual inference stands as the defining test of capability. In this end, we present SkyReels-V3, a conditional video generation model, built upon a unified multimodal in-context learning framework with diffusion Transformers. SkyReels-V3 model supports three core generative paradigms within a single architecture: reference images-to-video synthesis, video-to-video extension and audio-guided video generation. (i) reference images-to-video model is designed to produce high-fidelity videos with strong subject identity preservation, temporal coherence, and narrative consistency. To enhance reference adherence and compositional stability, we design a comprehensive data processing pipeline that leverages cross frame pairing, image editing, and semantic rewriting, effectively mitigating copy paste artifacts. During training, an image video hybrid strategy combined with multi-resolution joint optimization is employed to improve generalization and robustness across diverse scenarios. (ii) video extension model integrates spatio-temporal consistency modeling with large-scale video understanding, enabling both seamless single-shot continuation and intelligent multi-shot switching with professional cinematographic patterns. (iii) Talking avatar model supports minute-level audio-conditioned video generation by training first-and-last frame insertion patterns and reconstructing key-frame inference paradigms. On the basis of ensuring visual quality, synchronization of audio and videos has been optimized.
Extensive evaluations demonstrate that SkyReels-V3 achieves state-of-the-art or near state-of-the-art performance on key metrics including visual quality, instruction following, and specific aspect metrics, approaching leading closed-source systems. Github: https://github.com/SkyworkAI/SkyReels-V3.