ChatPaper.aiChatPaper

# Informe Técnico de SkyReels-V3

SkyReels-V3 Technique Report

January 24, 2026
Autores: Debang Li, Zhengcong Fei, Tuanhui Li, Yikun Dou, Zheng Chen, Jiangping Yang, Mingyuan Fan, Jingtao Xu, Jiahua Wang, Baoxuan Gu, Mingshan Chang, Yuqiang Xie, Binjie Mao, Youqiang Zhang, Nuo Pang, Hao Zhang, Yuzhe Jin, Zhiheng Xu, Dixuan Lin, Guibin Chen, Yahui Zhou
cs.AI

Resumen

La generación de vídeo sirve como piedra angular para construir modelos del mundo, donde la inferencia contextual multimodal constituye la prueba definitoria de capacidad. Con este fin, presentamos SkyReels-V3, un modelo de generación de vídeo condicional, construido sobre un marco unificado de aprendizaje multimodal en contexto con Transformers de difusión. El modelo SkyReels-V3 admite tres paradigmas generativos principales dentro de una única arquitectura: síntesis de imágenes de referencia a vídeo, extensión de vídeo a vídeo y generación de vídeo guiada por audio. (i) El modelo de imágenes de referencia a vídeo está diseñado para producir vídeos de alta fidelidad con una fuerte preservación de la identidad del sujeto, coherencia temporal y consistencia narrativa. Para mejorar la adherencia a la referencia y la estabilidad compositiva, diseñamos un pipeline integral de procesamiento de datos que aprovecha el emparejamiento entre fotogramas, la edición de imágenes y la reescritura semántica, mitigando eficazmente los artefactos de copia y pegado. Durante el entrenamiento, se emplea una estrategia híbrida de imagen y vídeo combinada con una optimización conjunta multirresolución para mejorar la generalización y robustez en diversos escenarios. (ii) El modelo de extensión de vídeo integra el modelado de consistencia espacio-temporal con la comprensión de vídeo a gran escala, permitiendo tanto la continuación continua de una sola toma como el cambio inteligente entre múltiples tomas con patrones cinematográficos profesionales. (iii) El modelo de avatar parlante admite la generación de vídeo condicionada por audio a nivel de minutos mediante el entrenamiento de patrones de inserción de primer y último fotograma y la reconstrucción de paradigmas de inferencia de fotogramas clave. Sobre la base de garantizar la calidad visual, se ha optimizado la sincronización de audio y vídeo. Evaluaciones exhaustivas demuestran que SkyReels-V3 logra un rendimiento state-of-the-art o cercano al state-of-the-art en métricas clave que incluyen calidad visual, seguimiento de instrucciones y métricas de aspectos específicos, aproximándose a los sistemas líderes de código cerrado. Github: https://github.com/SkyworkAI/SkyReels-V3.
English
Video generation serves as a cornerstone for building world models, where multimodal contextual inference stands as the defining test of capability. In this end, we present SkyReels-V3, a conditional video generation model, built upon a unified multimodal in-context learning framework with diffusion Transformers. SkyReels-V3 model supports three core generative paradigms within a single architecture: reference images-to-video synthesis, video-to-video extension and audio-guided video generation. (i) reference images-to-video model is designed to produce high-fidelity videos with strong subject identity preservation, temporal coherence, and narrative consistency. To enhance reference adherence and compositional stability, we design a comprehensive data processing pipeline that leverages cross frame pairing, image editing, and semantic rewriting, effectively mitigating copy paste artifacts. During training, an image video hybrid strategy combined with multi-resolution joint optimization is employed to improve generalization and robustness across diverse scenarios. (ii) video extension model integrates spatio-temporal consistency modeling with large-scale video understanding, enabling both seamless single-shot continuation and intelligent multi-shot switching with professional cinematographic patterns. (iii) Talking avatar model supports minute-level audio-conditioned video generation by training first-and-last frame insertion patterns and reconstructing key-frame inference paradigms. On the basis of ensuring visual quality, synchronization of audio and videos has been optimized. Extensive evaluations demonstrate that SkyReels-V3 achieves state-of-the-art or near state-of-the-art performance on key metrics including visual quality, instruction following, and specific aspect metrics, approaching leading closed-source systems. Github: https://github.com/SkyworkAI/SkyReels-V3.
PDF50January 28, 2026