ChatPaper.aiChatPaper

# SkyReels-V3 기술 보고서

SkyReels-V3 Technique Report

January 24, 2026
저자: Debang Li, Zhengcong Fei, Tuanhui Li, Yikun Dou, Zheng Chen, Jiangping Yang, Mingyuan Fan, Jingtao Xu, Jiahua Wang, Baoxuan Gu, Mingshan Chang, Yuqiang Xie, Binjie Mao, Youqiang Zhang, Nuo Pang, Hao Zhang, Yuzhe Jin, Zhiheng Xu, Dixuan Lin, Guibin Chen, Yahui Zhou
cs.AI

초록

비디오 생성은 세계 모델 구축의 초석이 되며, 여기서 멀티모달 맥락 추론은 능력을 판가름하는 시험으로 작용합니다. 이러한 목표를 위해 우리는 Diffusion Transformer 기반의 통합 멀티모달 인-컨텍스트 학습 프레임워크 위에 구축된 조건부 비디오 생성 모델인 SkyReels-V3를 제안합니다. SkyReels-V3 모델은 단일 아키텍처 내에서 세 가지 핵심 생성 패러다임을 지원합니다: 참조 이미지-비디오 합성, 비디오-비디오 확장, 그리고 오디오 유도 비디오 생성. (i) 참조 이미지-비디오 모델은 강력한 주체 정체성 보존, 시간적 일관성 및 서사적 일관성을 갖춘 고품질 비디오를 생성하도록 설계되었습니다. 참조 준수도와 구성 안정성을 향상시키기 위해 크로스 프레임 페어링, 이미지 편집 및 의미론적 재작성을 활용하는 포괄적인 데이터 처리 파이프라인을 설계하여 복사-붙여넣기 아티팩트를 효과적으로 완화했습니다. 학습 동안에는 다양한 시나리오에서의 일반화 성능과 견고성을 향상시키기 위해 이미지-비디오 하이브리드 전략과 다중 해상도 공동 최적화를 결합하여 적용했습니다. (ii) 비디오 확장 모델은 시공간 일관성 모델링과 대규모 비디오 이해를 통합하여, 단일 샷의 원활한 연속 생성과 전문적인 영화 촬영 기법을 활용한 지능적인 멀티 샷 전환을 모두 가능하게 합니다. (iii) 토킹 아바타 모델은 첫-끝 프레임 삽입 패턴 학습과 키 프레임 추론 패러다임 재구성을 통해 분 단위의 오디오 조건 비디오 생성을 지원합니다. 시각적 품질을 보장하는 것을 기반으로 오디오와 비디오의 동기화가 최적화되었습니다. 광범위한 평가를 통해 SkyReels-V3가 시각적 품질, 지시 따르기, 특정 측면 메트릭 등 주요 평가 지표에서 최첨단 또는 최첨단에 근접한 성능을 달성하여 선도적인 클로즈드 소스 시스템에 버금가는 성과를 보여줍니다. Github: https://github.com/SkyworkAI/SkyReels-V3.
English
Video generation serves as a cornerstone for building world models, where multimodal contextual inference stands as the defining test of capability. In this end, we present SkyReels-V3, a conditional video generation model, built upon a unified multimodal in-context learning framework with diffusion Transformers. SkyReels-V3 model supports three core generative paradigms within a single architecture: reference images-to-video synthesis, video-to-video extension and audio-guided video generation. (i) reference images-to-video model is designed to produce high-fidelity videos with strong subject identity preservation, temporal coherence, and narrative consistency. To enhance reference adherence and compositional stability, we design a comprehensive data processing pipeline that leverages cross frame pairing, image editing, and semantic rewriting, effectively mitigating copy paste artifacts. During training, an image video hybrid strategy combined with multi-resolution joint optimization is employed to improve generalization and robustness across diverse scenarios. (ii) video extension model integrates spatio-temporal consistency modeling with large-scale video understanding, enabling both seamless single-shot continuation and intelligent multi-shot switching with professional cinematographic patterns. (iii) Talking avatar model supports minute-level audio-conditioned video generation by training first-and-last frame insertion patterns and reconstructing key-frame inference paradigms. On the basis of ensuring visual quality, synchronization of audio and videos has been optimized. Extensive evaluations demonstrate that SkyReels-V3 achieves state-of-the-art or near state-of-the-art performance on key metrics including visual quality, instruction following, and specific aspect metrics, approaching leading closed-source systems. Github: https://github.com/SkyworkAI/SkyReels-V3.
PDF50January 28, 2026