Rapport Technique sur SkyReels-V3
SkyReels-V3 Technique Report
January 24, 2026
papers.authors: Debang Li, Zhengcong Fei, Tuanhui Li, Yikun Dou, Zheng Chen, Jiangping Yang, Mingyuan Fan, Jingtao Xu, Jiahua Wang, Baoxuan Gu, Mingshan Chang, Yuqiang Xie, Binjie Mao, Youqiang Zhang, Nuo Pang, Hao Zhang, Yuzhe Jin, Zhiheng Xu, Dixuan Lin, Guibin Chen, Yahui Zhou
cs.AI
papers.abstract
La génération vidéo constitue une pierre angulaire pour la construction de modèles du monde, où l'inférence contextuelle multimodale représente l'épreuve déterminante des capacités. À cette fin, nous présentons SkyReels-V3, un modèle de génération vidéo conditionnelle, construit sur un cadre unifié d'apprentissage multimodal en contexte avec des Transformers à diffusion. Le modèle SkyReels-V3 prend en charge trois paradigmes génératifs fondamentaux au sein d'une architecture unique : la synthèse vidéo à partir d'images de référence, l'extension vidéo-à-vidéo et la génération vidéo guidée par audio. (i) Le modèle image-à-vidéo de référence est conçu pour produire des vidéos haute fidélité avec une forte préservation de l'identité du sujet, une cohérence temporelle et une continuité narrative. Pour améliorer l'adhérence à la référence et la stabilité compositionnelle, nous concevons un pipeline complet de traitement des données qui exploite l'appariement inter-images, l'édition d'image et la réécriture sémantique, atténuant efficacement les artefacts de copier-coller. Pendant l'entraînement, une stratégie hybride image-vidéo combinée à une optimisation conjointe multi-résolution est employée pour améliorer la généralisation et la robustesse dans divers scénarios. (ii) Le modèle d'extension vidéo intègre une modélisation de la cohérence spatio-temporelle avec une compréhension vidéo à grande échelle, permettant à la fois une continuation fluide en plan unique et une transition intelligente multi-plans avec des schémas cinématographiques professionnels. (iii) Le modèle d'avatar parlant prend en charge la génération vidéo conditionnée par l'audio de durée minute en entraînant des motifs d'insertion de première-et-dernière image et en reconstruisant des paradigmes d'inférence à images clés. Sur la base d'une qualité visuelle assurée, la synchronisation audio-vidéo a été optimisée.
Des évaluations approfondies démontrent que SkyReels-V3 atteint des performances à l'état de l'art ou quasi état de l'art sur les métriques clés incluant la qualité visuelle, le suivi des instructions et les métriques d'aspects spécifiques, approchant les performances des systèmes propriétaires leaders. Github : https://github.com/SkyworkAI/SkyReels-V3.
English
Video generation serves as a cornerstone for building world models, where multimodal contextual inference stands as the defining test of capability. In this end, we present SkyReels-V3, a conditional video generation model, built upon a unified multimodal in-context learning framework with diffusion Transformers. SkyReels-V3 model supports three core generative paradigms within a single architecture: reference images-to-video synthesis, video-to-video extension and audio-guided video generation. (i) reference images-to-video model is designed to produce high-fidelity videos with strong subject identity preservation, temporal coherence, and narrative consistency. To enhance reference adherence and compositional stability, we design a comprehensive data processing pipeline that leverages cross frame pairing, image editing, and semantic rewriting, effectively mitigating copy paste artifacts. During training, an image video hybrid strategy combined with multi-resolution joint optimization is employed to improve generalization and robustness across diverse scenarios. (ii) video extension model integrates spatio-temporal consistency modeling with large-scale video understanding, enabling both seamless single-shot continuation and intelligent multi-shot switching with professional cinematographic patterns. (iii) Talking avatar model supports minute-level audio-conditioned video generation by training first-and-last frame insertion patterns and reconstructing key-frame inference paradigms. On the basis of ensuring visual quality, synchronization of audio and videos has been optimized.
Extensive evaluations demonstrate that SkyReels-V3 achieves state-of-the-art or near state-of-the-art performance on key metrics including visual quality, instruction following, and specific aspect metrics, approaching leading closed-source systems. Github: https://github.com/SkyworkAI/SkyReels-V3.