Technisch Rapport SkyReels-V3

Samenvatting

Videogeneratie vormt een hoeksteen voor het bouwen van wereldmodellen, waarbij multimodale contextuele inferentie de bepalende test voor capaciteit is. Hiertoe presenteren wij SkyReels-V3, een conditioneel videogeneratiemodel, gebouwd op een uniform multimodaal in-context leerframework met diffusion Transformers. Het SkyReels-V3-model ondersteunt drie kern generatieve paradigma's binnen een enkele architectuur: referentiebeelden-naar-video synthese, video-naar-video extensie en audiogestuurde videogeneratie. (i) Het referentiebeelden-naar-video model is ontworpen om video's van hoge kwaliteit te produceren met sterke identiteitsbehoud van het onderwerp, temporele coherentie en narratieve consistentie. Om de naleving van referenties en compositionele stabiliteit te verbeteren, hebben we een uitgebreide dataverwerkingspijplijn ontworpen die gebruikmaakt van kruis-frame koppeling, beeldbewerking en semantisch herschrijven, waardoor kopieer-plak-artefacten effectief worden verminderd. Tijdens de training wordt een hybride beeld-video strategie gecombineerd met multi-resolutie gezamenlijke optimalisatie toegepast om de generalisatie en robuustheid in diverse scenario's te verbeteren. (ii) Het video-extensiemodel integreert spatio-temporele consistentiemodellering met grootschalig videobegrip, waardoor zowel naadloze single-shot voortzetting als intelligente multi-shot switching met professionele cinematografische patronen mogelijk wordt. (iii) Het sprekende avatar-model ondersteunt minutenlange audiogestuurde videogeneratie door eerst-en-laatste-frame invoegpatronen te trainen en key-frame inferentieparadigma's te reconstrueren. Op basis van het waarborgen van visuele kwaliteit is de synchronisatie van audio en video geoptimaliseerd. Uitgebreide evaluaties tonen aan dat SkyReels-V3 state-of-the-art of bijna state-of-the-art prestaties bereikt op belangrijke metrieken, inclusief visuele kwaliteit, instructievolging en specifieke aspectmetrieken, waarbij het de toonaangevende closed-source systemen benadert. Github: https://github.com/SkyworkAI/SkyReels-V3.

English

Video generation serves as a cornerstone for building world models, where multimodal contextual inference stands as the defining test of capability. In this end, we present SkyReels-V3, a conditional video generation model, built upon a unified multimodal in-context learning framework with diffusion Transformers. SkyReels-V3 model supports three core generative paradigms within a single architecture: reference images-to-video synthesis, video-to-video extension and audio-guided video generation. (i) reference images-to-video model is designed to produce high-fidelity videos with strong subject identity preservation, temporal coherence, and narrative consistency. To enhance reference adherence and compositional stability, we design a comprehensive data processing pipeline that leverages cross frame pairing, image editing, and semantic rewriting, effectively mitigating copy paste artifacts. During training, an image video hybrid strategy combined with multi-resolution joint optimization is employed to improve generalization and robustness across diverse scenarios. (ii) video extension model integrates spatio-temporal consistency modeling with large-scale video understanding, enabling both seamless single-shot continuation and intelligent multi-shot switching with professional cinematographic patterns. (iii) Talking avatar model supports minute-level audio-conditioned video generation by training first-and-last frame insertion patterns and reconstructing key-frame inference paradigms. On the basis of ensuring visual quality, synchronization of audio and videos has been optimized. Extensive evaluations demonstrate that SkyReels-V3 achieves state-of-the-art or near state-of-the-art performance on key metrics including visual quality, instruction following, and specific aspect metrics, approaching leading closed-source systems. Github: https://github.com/SkyworkAI/SkyReels-V3.

Technisch Rapport SkyReels-V3

SkyReels-V3 Technique Report

Samenvatting

Support