ChatPaper.aiChatPaper

Technischer Bericht zu SkyReels-V3

SkyReels-V3 Technique Report

January 24, 2026
papers.authors: Debang Li, Zhengcong Fei, Tuanhui Li, Yikun Dou, Zheng Chen, Jiangping Yang, Mingyuan Fan, Jingtao Xu, Jiahua Wang, Baoxuan Gu, Mingshan Chang, Yuqiang Xie, Binjie Mao, Youqiang Zhang, Nuo Pang, Hao Zhang, Yuzhe Jin, Zhiheng Xu, Dixuan Lin, Guibin Chen, Yahui Zhou
cs.AI

papers.abstract

Die Videogenerierung dient als Grundbaustein für die Entwicklung von Weltmodellen, wobei multimodale kontextuelle Inferenz den entscheidenden Fähigkeitstest darstellt. Zu diesem Zweck präsentieren wir SkyReels-V3, ein konditionales Videogenerierungsmodell, das auf einem einheitlichen multimodalen In-Context-Learning-Framework mit Diffusion-Transformern aufbaut. Das SkyReels-V3-Modell unterstützt drei zentrale Generative Paradigmen innerhalb einer einzigen Architektur: Referenzbild-zu-Video-Synthese, Video-zu-Video-Extension und audiogesteuerte Videogenerierung. (i) Das Referenzbild-zu-Video-Modell ist darauf ausgelegt, hochwertige Videos mit starker Subjektidentitätserhaltung, zeitlicher Kohärenz und narrativer Konsistenz zu erzeugen. Um die Referenztreue und kompositionelle Stabilität zu verbessern, haben wir eine umfassende Datenverarbeitungspipeline entwickelt, die Cross-Frame-Pairing, Bildbearbeitung und semantische Neubeschreibung nutzt, um Copy-Paste-Artefakte effektiv zu reduzieren. Während des Trainings kommt eine Bild-Video-Hybridstrategie in Kombination mit Multi-Resolution-Joint-Optimierung zum Einsatz, um die Generalisierbarkeit und Robustheit in verschiedenen Szenarien zu verbessern. (ii) Das Video-Extension-Modell integriert die Modellierung räumlich-zeitlicher Konsistenz mit umfangreichem Videoverständnis und ermöglicht sowohl nahtlose Einzelszenen-Fortführung als auch intelligente Mehrszenen-Wechsel mit professionellen filmischen Mustern. (iii) Das Talking-Avatar-Modell unterstützt minutenlange audiogesteuerte Videogenerierung durch Training von Erst-und-Letzt-Bild-Einfügemustern und Rekonstruktion von Key-Frame-Inferenz-Paradigmen. Auf der Grundlage einer gesicherten visuellen Qualität wurde die Synchronisation von Audio und Video optimiert. Umfangreiche Evaluierungen zeigen, dass SkyReels-V3 state-of-the-art oder nahezu state-of-the-art Leistung in wichtigen Metriken erreicht, einschließlich visueller Qualität, Instruktionsbefolgung und spezifischen Aspektmetriken, und sich führenden Closed-Source-Systemen annähert. Github: https://github.com/SkyworkAI/SkyReels-V3.
English
Video generation serves as a cornerstone for building world models, where multimodal contextual inference stands as the defining test of capability. In this end, we present SkyReels-V3, a conditional video generation model, built upon a unified multimodal in-context learning framework with diffusion Transformers. SkyReels-V3 model supports three core generative paradigms within a single architecture: reference images-to-video synthesis, video-to-video extension and audio-guided video generation. (i) reference images-to-video model is designed to produce high-fidelity videos with strong subject identity preservation, temporal coherence, and narrative consistency. To enhance reference adherence and compositional stability, we design a comprehensive data processing pipeline that leverages cross frame pairing, image editing, and semantic rewriting, effectively mitigating copy paste artifacts. During training, an image video hybrid strategy combined with multi-resolution joint optimization is employed to improve generalization and robustness across diverse scenarios. (ii) video extension model integrates spatio-temporal consistency modeling with large-scale video understanding, enabling both seamless single-shot continuation and intelligent multi-shot switching with professional cinematographic patterns. (iii) Talking avatar model supports minute-level audio-conditioned video generation by training first-and-last frame insertion patterns and reconstructing key-frame inference paradigms. On the basis of ensuring visual quality, synchronization of audio and videos has been optimized. Extensive evaluations demonstrate that SkyReels-V3 achieves state-of-the-art or near state-of-the-art performance on key metrics including visual quality, instruction following, and specific aspect metrics, approaching leading closed-source systems. Github: https://github.com/SkyworkAI/SkyReels-V3.
PDF50January 28, 2026