ゼロショット参照動画生成のスケーリング
Scaling Zero-Shot Reference-to-Video Generation
December 7, 2025
著者: Zijian Zhou, Shikun Liu, Haozhe Liu, Haonan Qiu, Zhaochong An, Weiming Ren, Zhiheng Liu, Xiaoke Huang, Kam Woh Ng, Tian Xie, Xiao Han, Yuren Cong, Hang Li, Chuyan Zhu, Aditya Patel, Tao Xiang, Sen He
cs.AI
要旨
参照画像からの映像生成(R2V)は、テキストプロンプトに沿った映像を合成しつつ、参照画像の被写体の同一性を保持することを目的としています。しかし、既存のR2V手法は、参照画像・映像・テキストの明示的三つ組データへの依存に阻まれており、この種のデータ構築には莫大なコストがかかり、スケーリングが極めて困難です。本研究ではこのボトルネックを回避するため、明示的なR2Vデータを一切必要としないスケーラブルなゼロショットフレームワーク「Saber」を提案します。映像とテキストのペアデータのみで学習されたSaberは、マスク化訓練戦略と独自設計の注意機構ベースのモデル構造により、同一性を一貫させかつ参照を意識した表現を学習します。さらにマスク拡張技術を統合することで、参照画像からの映像生成で頻発するコピー&ペースト的な不自然な描写を軽減します。加えて、Saberは参照画像数が変動する状況でも優れた汎化性能を示し、R2Vデータで学習した手法を超える性能をOpenS2V-Evalベンチマークで達成しました。
English
Reference-to-video (R2V) generation aims to synthesize videos that align with a text prompt while preserving the subject identity from reference images. However, current R2V methods are hindered by the reliance on explicit reference image-video-text triplets, whose construction is highly expensive and difficult to scale. We bypass this bottleneck by introducing Saber, a scalable zero-shot framework that requires no explicit R2V data. Trained exclusively on video-text pairs, Saber employs a masked training strategy and a tailored attention-based model design to learn identity-consistent and reference-aware representations. Mask augmentation techniques are further integrated to mitigate copy-paste artifacts common in reference-to-video generation. Moreover, Saber demonstrates remarkable generalization capabilities across a varying number of references and achieves superior performance on the OpenS2V-Eval benchmark compared to methods trained with R2V data.