# Relatório Técnico do SkyReels-V3

Resumo

A geração de vídeo serve como pedra angular para a construção de modelos de mundo, onde a inferência contextual multimodal representa o teste definitivo de capacidade. Para este fim, apresentamos o SkyReels-V3, um modelo de geração de vídeo condicional, construído sobre um framework unificado de aprendizado in-context multimodal com Transformers de difusão. O modelo SkyReels-V3 suporta três paradigmas gerativos centrais em uma única arquitetura: síntese de imagens de referência para vídeo, extensão de vídeo para vídeo e geração de vídeo guiada por áudio. (i) O modelo de imagens de referência para vídeo é projetado para produzir vídeos de alta fidelidade com forte preservação da identidade do sujeito, coerência temporal e consistência narrativa. Para melhorar a aderência à referência e a estabilidade composicional, projetamos um pipeline abrangente de processamento de dados que aproveita o emparelhamento cruzado de frames, edição de imagem e reescrita semântica, mitigando efetivamente artefatos do tipo "copiar e colar". Durante o treinamento, uma estratégia híbrida de imagem e vídeo combinada com otimização conjunta de multi-resolução é empregada para melhorar a generalização e robustez em diversos cenários. (ii) O modelo de extensão de vídeo integra a modelagem de consistência espaço-temporal com a compreensão de vídeo em larga escala, permitindo tanto a continuação contínua de tomada única quanto a transição inteligente entre múltiplas tomadas com padrões cinematográficos profissionais. (iii) O modelo de avatar falante suporta a geração de vídeo condicionada por áudio em nível de minutos, treinando padrões de inserção de primeiro e último frame e reconstruindo paradigmas de inferência de key-frames. Com base na garantia da qualidade visual, a sincronização de áudio e vídeo foi otimizada. Avaliações extensivas demonstram que o SkyReels-V3 alcança desempenho state-of-the-art ou próximo dele em métricas-chave, incluindo qualidade visual, seguimento de instruções e métricas de aspectos específicos, aproximando-se de sistemas líderes de código fechado. Github: https://github.com/SkyworkAI/SkyReels-V3.

English

Video generation serves as a cornerstone for building world models, where multimodal contextual inference stands as the defining test of capability. In this end, we present SkyReels-V3, a conditional video generation model, built upon a unified multimodal in-context learning framework with diffusion Transformers. SkyReels-V3 model supports three core generative paradigms within a single architecture: reference images-to-video synthesis, video-to-video extension and audio-guided video generation. (i) reference images-to-video model is designed to produce high-fidelity videos with strong subject identity preservation, temporal coherence, and narrative consistency. To enhance reference adherence and compositional stability, we design a comprehensive data processing pipeline that leverages cross frame pairing, image editing, and semantic rewriting, effectively mitigating copy paste artifacts. During training, an image video hybrid strategy combined with multi-resolution joint optimization is employed to improve generalization and robustness across diverse scenarios. (ii) video extension model integrates spatio-temporal consistency modeling with large-scale video understanding, enabling both seamless single-shot continuation and intelligent multi-shot switching with professional cinematographic patterns. (iii) Talking avatar model supports minute-level audio-conditioned video generation by training first-and-last frame insertion patterns and reconstructing key-frame inference paradigms. On the basis of ensuring visual quality, synchronization of audio and videos has been optimized. Extensive evaluations demonstrate that SkyReels-V3 achieves state-of-the-art or near state-of-the-art performance on key metrics including visual quality, instruction following, and specific aspect metrics, approaching leading closed-source systems. Github: https://github.com/SkyworkAI/SkyReels-V3.