# Rapporto Tecnico su SkyReels-V3
SkyReels-V3 Technique Report
January 24, 2026
Autori: Debang Li, Zhengcong Fei, Tuanhui Li, Yikun Dou, Zheng Chen, Jiangping Yang, Mingyuan Fan, Jingtao Xu, Jiahua Wang, Baoxuan Gu, Mingshan Chang, Yuqiang Xie, Binjie Mao, Youqiang Zhang, Nuo Pang, Hao Zhang, Yuzhe Jin, Zhiheng Xu, Dixuan Lin, Guibin Chen, Yahui Zhou
cs.AI
Abstract
La generazione video rappresenta una pietra angolare per la costruzione di modelli del mondo, dove l'inferenza contestuale multimodale costituisce il test definitivo delle capacità. A tal fine, presentiamo SkyReels-V3, un modello di generazione video condizionata, basato su un framework unificato di apprendimento contestuale multimodale con Trasformatori a diffusione. Il modello SkyReels-V3 supporta tre paradigmi generativi fondamentali all'interno di un'unica architettura: sintesi video da immagini di riferimento, estensione video-da-video e generazione video guidata da audio. (i) Il modello video da immagini di riferimento è progettato per produrre video ad alta fedeltà con una forte preservazione dell'identità del soggetto, coerenza temporale e consistenza narrativa. Per migliorare l'aderenza al riferimento e la stabilità compositiva, abbiamo progettato una pipeline completa di elaborazione dei dati che sfrutta l'abbinamento incrociato tra frame, l'editing di immagini e la riscrittura semantica, mitigando efficacemente gli artefatti da copia-incolla. Durante l'addestramento, viene impiegata una strategia ibrida immagine-video combinata con un'ottimizzazione congiunta a multi-risoluzione per migliorare la generalizzazione e la robustezza in scenari diversi. (ii) Il modello di estensione video integra la modellazione della coerenza spaziotemporale con la comprensione video su larga scala, consentendo sia una continuazione seamless in singola ripresa sia transizioni intelligenti multi-ripresa con pattern cinematografici professionali. (iii) Il modello di avatar parlante supporta la generazione video condizionata da audio a livello di minuto, addestrando pattern di inserimento del primo e ultimo fotogramma e ricostruendo paradigmi di inferenza a frame chiave. Sulla base di un'assicurata qualità visiva, la sincronizzazione di audio e video è stata ottimizzata.
Valutazioni estensive dimostrano che SkyReels-V3 raggiunge prestazioni state-of-the-art o quasi state-of-the-art su metriche chiave, inclusa la qualità visiva, l'aderenza alle istruzioni e metriche di aspetti specifici, avvicinandosi ai principali sistemi closed-source. Github: https://github.com/SkyworkAI/SkyReels-V3.
English
Video generation serves as a cornerstone for building world models, where multimodal contextual inference stands as the defining test of capability. In this end, we present SkyReels-V3, a conditional video generation model, built upon a unified multimodal in-context learning framework with diffusion Transformers. SkyReels-V3 model supports three core generative paradigms within a single architecture: reference images-to-video synthesis, video-to-video extension and audio-guided video generation. (i) reference images-to-video model is designed to produce high-fidelity videos with strong subject identity preservation, temporal coherence, and narrative consistency. To enhance reference adherence and compositional stability, we design a comprehensive data processing pipeline that leverages cross frame pairing, image editing, and semantic rewriting, effectively mitigating copy paste artifacts. During training, an image video hybrid strategy combined with multi-resolution joint optimization is employed to improve generalization and robustness across diverse scenarios. (ii) video extension model integrates spatio-temporal consistency modeling with large-scale video understanding, enabling both seamless single-shot continuation and intelligent multi-shot switching with professional cinematographic patterns. (iii) Talking avatar model supports minute-level audio-conditioned video generation by training first-and-last frame insertion patterns and reconstructing key-frame inference paradigms. On the basis of ensuring visual quality, synchronization of audio and videos has been optimized.
Extensive evaluations demonstrate that SkyReels-V3 achieves state-of-the-art or near state-of-the-art performance on key metrics including visual quality, instruction following, and specific aspect metrics, approaching leading closed-source systems. Github: https://github.com/SkyworkAI/SkyReels-V3.