SkyReels-A2: 비디오 확산 트랜스포머로 무엇이든 구성하기
SkyReels-A2: Compose Anything in Video Diffusion Transformers
April 3, 2025
저자: Zhengcong Fei, Debang Li, Di Qiu, Jiahua Wang, Yikun Dou, Rui Wang, Jingtao Xu, Mingyuan Fan, Guibin Chen, Yang Li, Yahui Zhou
cs.AI
초록
본 논문은 텍스트 프롬프트를 기반으로 임의의 시각적 요소(예: 캐릭터, 객체, 배경)를 합성 비디오로 조립하면서 각 요소의 참조 이미지와 엄격한 일관성을 유지할 수 있는 제어 가능한 비디오 생성 프레임워크인 SkyReels-A2를 소개합니다. 우리는 이러한 작업을 요소-투-비디오(E2V)라고 명명하며, 이 작업의 주요 과제는 각 참조 요소의 충실도를 유지하고, 장면의 일관된 구성을 보장하며, 자연스러운 출력을 달성하는 데 있습니다. 이를 해결하기 위해, 먼저 모델 학습을 위한 프롬프트-참조-비디오 삼중항을 구성하기 위한 포괄적인 데이터 파이프라인을 설계했습니다. 다음으로, 다중 요소 표현을 생성 과정에 주입하여 요소별 일관성과 전역적 일관성 및 텍스트 정렬을 균형 있게 조절하는 새로운 이미지-텍스트 결합 임베딩 모델을 제안합니다. 또한, 속도와 출력 안정성을 모두 최적화한 추론 파이프라인을 구현했습니다. 더불어, 체계적인 평가를 위해 신중하게 선별된 벤치마크인 A2 Bench를 소개합니다. 실험 결과, 우리의 프레임워크가 정밀한 요소 제어를 통해 다양하고 고품질의 비디오를 생성할 수 있음을 입증했습니다. SkyReels-A2는 E2V 생성을 위한 최초의 오픈소스 상용 등급 모델로, 고급 클로즈드소스 상용 모델에 비해 우수한 성능을 보입니다. 우리는 SkyReels-A2가 드라마 및 가상 이커머스와 같은 창의적인 응용 분야를 발전시키고, 제어 가능한 비디오 생성의 경계를 넓힐 것으로 기대합니다.
English
This paper presents SkyReels-A2, a controllable video generation framework
capable of assembling arbitrary visual elements (e.g., characters, objects,
backgrounds) into synthesized videos based on textual prompts while maintaining
strict consistency with reference images for each element. We term this task
elements-to-video (E2V), whose primary challenges lie in preserving the
fidelity of each reference element, ensuring coherent composition of the scene,
and achieving natural outputs. To address these, we first design a
comprehensive data pipeline to construct prompt-reference-video triplets for
model training. Next, we propose a novel image-text joint embedding model to
inject multi-element representations into the generative process, balancing
element-specific consistency with global coherence and text alignment. We also
optimize the inference pipeline for both speed and output stability. Moreover,
we introduce a carefully curated benchmark for systematic evaluation, i.e, A2
Bench. Experiments demonstrate that our framework can generate diverse,
high-quality videos with precise element control. SkyReels-A2 is the first
open-source commercial grade model for the generation of E2V, performing
favorably against advanced closed-source commercial models. We anticipate
SkyReels-A2 will advance creative applications such as drama and virtual
e-commerce, pushing the boundaries of controllable video generation.Summary
AI-Generated Summary