ChatPaper.aiChatPaper

영샷 기준-비디오 생성의 확장

Scaling Zero-Shot Reference-to-Video Generation

December 7, 2025
저자: Zijian Zhou, Shikun Liu, Haozhe Liu, Haonan Qiu, Zhaochong An, Weiming Ren, Zhiheng Liu, Xiaoke Huang, Kam Woh Ng, Tian Xie, Xiao Han, Yuren Cong, Hang Li, Chuyan Zhu, Aditya Patel, Tao Xiang, Sen He
cs.AI

초록

참조 영상 생성(R2V)은 참조 이미지의 대상 정체성을 보존하면서 텍스트 프롬프트와 일치하는 영상을 합성하는 것을 목표로 합니다. 그러나 기존 R2V 방법은 명시적인 참조 이미지-영상-텍스트 삼중항에 의존하는 한계가 있으며, 이러한 데이터 구축은 비용이 매우 크고 확장하기 어렵습니다. 우리는 이러한 병목 현상을 명시적인 R2V 데이터 없이도 작동하는 확장 가능한 제로샷 프레임워크인 Saber를 도입하여 우회합니다. Saber는 오직 영상-텍스트 쌍으로만 훈련되며, 마스크 훈련 전략과 맞춤형 어텐션 기반 모델 설계를 통해 정체성 일관성 및 참조 인식 표현을 학습합니다. 참조 영상 생성에서 흔히 발생하는 복사-붙여넣기 아티팩트를 완화하기 위해 마스크 증강 기법이 추가로 통합되었습니다. 더 나아가 Saber는 다양한 수의 참조 이미지에 걸쳐 뛰어난 일반화 능력을 보여주며, R2V 데이터로 훈련된 방법들보다 OpenS2V-Eval 벤치마크에서 우수한 성능을 달성합니다.
English
Reference-to-video (R2V) generation aims to synthesize videos that align with a text prompt while preserving the subject identity from reference images. However, current R2V methods are hindered by the reliance on explicit reference image-video-text triplets, whose construction is highly expensive and difficult to scale. We bypass this bottleneck by introducing Saber, a scalable zero-shot framework that requires no explicit R2V data. Trained exclusively on video-text pairs, Saber employs a masked training strategy and a tailored attention-based model design to learn identity-consistent and reference-aware representations. Mask augmentation techniques are further integrated to mitigate copy-paste artifacts common in reference-to-video generation. Moreover, Saber demonstrates remarkable generalization capabilities across a varying number of references and achieves superior performance on the OpenS2V-Eval benchmark compared to methods trained with R2V data.
PDF274December 10, 2025