ReCamMaster: 単一動画からのカメラ制御による生成的レンダリングReCamMaster: Camera-Controlled Generative Rendering from A Single Video
カメラ制御は、テキストや画像を条件とした動画生成タスクにおいて積極的に研究されてきた。しかし、与えられた動画のカメラ軌道を変更するという課題は、映像制作の分野における重要性にもかかわらず、十分に探求されていないままである。これは、複数フレームの外観と動的な同期を維持するという追加の制約により、非自明な課題となっている。この問題に対処するため、我々はReCamMasterを提案する。これは、入力動画の動的なシーンを新しいカメラ軌道で再現する、カメラ制御型の生成動画再レンダリングフレームワークである。中核となる革新点は、事前学習済みのテキストから動画を生成するモデルの生成能力を、シンプルでありながら強力な動画条件付けメカニズムを通じて活用することにある。この能力は、現在の研究ではしばしば見過ごされている。質の高い学習データの不足を克服するため、我々はUnreal Engine 5を使用して、現実世界の撮影特性に従い、多様なシーンとカメラの動きをカバーする、包括的なマルチカメラ同期動画データセットを構築した。これにより、モデルが実世界の動画に一般化するのを支援する。最後に、入念に設計された学習戦略を通じて、多様な入力に対するロバスト性をさらに向上させた。大規模な実験により、我々の手法が既存の最先端手法や強力なベースラインを大幅に上回ることが示された。また、我々の手法は、動画の安定化、超解像、およびアウトペインティングにおいて有望な応用を見出している。プロジェクトページ: https://jianhongbai.github.io/ReCamMaster/