ChatPaper.aiChatPaper

# Relatório Técnico do SkyReels-V3

SkyReels-V3 Technique Report

January 24, 2026
Autores: Debang Li, Zhengcong Fei, Tuanhui Li, Yikun Dou, Zheng Chen, Jiangping Yang, Mingyuan Fan, Jingtao Xu, Jiahua Wang, Baoxuan Gu, Mingshan Chang, Yuqiang Xie, Binjie Mao, Youqiang Zhang, Nuo Pang, Hao Zhang, Yuzhe Jin, Zhiheng Xu, Dixuan Lin, Guibin Chen, Yahui Zhou
cs.AI

Resumo

A geração de vídeo serve como pedra angular para a construção de modelos de mundo, onde a inferência contextual multimodal representa o teste definitivo de capacidade. Para este fim, apresentamos o SkyReels-V3, um modelo de geração de vídeo condicional, construído sobre um framework unificado de aprendizado in-context multimodal com Transformers de difusão. O modelo SkyReels-V3 suporta três paradigmas gerativos centrais em uma única arquitetura: síntese de imagens de referência para vídeo, extensão de vídeo para vídeo e geração de vídeo guiada por áudio. (i) O modelo de imagens de referência para vídeo é projetado para produzir vídeos de alta fidelidade com forte preservação da identidade do sujeito, coerência temporal e consistência narrativa. Para melhorar a aderência à referência e a estabilidade composicional, projetamos um pipeline abrangente de processamento de dados que aproveita o emparelhamento cruzado de frames, edição de imagem e reescrita semântica, mitigando efetivamente artefatos do tipo "copiar e colar". Durante o treinamento, uma estratégia híbrida de imagem e vídeo combinada com otimização conjunta de multi-resolução é empregada para melhorar a generalização e robustez em diversos cenários. (ii) O modelo de extensão de vídeo integra a modelagem de consistência espaço-temporal com a compreensão de vídeo em larga escala, permitindo tanto a continuação contínua de tomada única quanto a transição inteligente entre múltiplas tomadas com padrões cinematográficos profissionais. (iii) O modelo de avatar falante suporta a geração de vídeo condicionada por áudio em nível de minutos, treinando padrões de inserção de primeiro e último frame e reconstruindo paradigmas de inferência de key-frames. Com base na garantia da qualidade visual, a sincronização de áudio e vídeo foi otimizada. Avaliações extensivas demonstram que o SkyReels-V3 alcança desempenho state-of-the-art ou próximo dele em métricas-chave, incluindo qualidade visual, seguimento de instruções e métricas de aspectos específicos, aproximando-se de sistemas líderes de código fechado. Github: https://github.com/SkyworkAI/SkyReels-V3.
English
Video generation serves as a cornerstone for building world models, where multimodal contextual inference stands as the defining test of capability. In this end, we present SkyReels-V3, a conditional video generation model, built upon a unified multimodal in-context learning framework with diffusion Transformers. SkyReels-V3 model supports three core generative paradigms within a single architecture: reference images-to-video synthesis, video-to-video extension and audio-guided video generation. (i) reference images-to-video model is designed to produce high-fidelity videos with strong subject identity preservation, temporal coherence, and narrative consistency. To enhance reference adherence and compositional stability, we design a comprehensive data processing pipeline that leverages cross frame pairing, image editing, and semantic rewriting, effectively mitigating copy paste artifacts. During training, an image video hybrid strategy combined with multi-resolution joint optimization is employed to improve generalization and robustness across diverse scenarios. (ii) video extension model integrates spatio-temporal consistency modeling with large-scale video understanding, enabling both seamless single-shot continuation and intelligent multi-shot switching with professional cinematographic patterns. (iii) Talking avatar model supports minute-level audio-conditioned video generation by training first-and-last frame insertion patterns and reconstructing key-frame inference paradigms. On the basis of ensuring visual quality, synchronization of audio and videos has been optimized. Extensive evaluations demonstrate that SkyReels-V3 achieves state-of-the-art or near state-of-the-art performance on key metrics including visual quality, instruction following, and specific aspect metrics, approaching leading closed-source systems. Github: https://github.com/SkyworkAI/SkyReels-V3.
PDF92March 6, 2026