ReCamMaster : Rendue générative contrôlée par caméra à partir d'une seule vidéo
ReCamMaster: Camera-Controlled Generative Rendering from A Single Video
March 14, 2025
Auteurs: Jianhong Bai, Menghan Xia, Xiao Fu, Xintao Wang, Lianrui Mu, Jinwen Cao, Zuozhu Liu, Haoji Hu, Xiang Bai, Pengfei Wan, Di Zhang
cs.AI
Résumé
Le contrôle de la caméra a fait l'objet d'études approfondies dans les tâches de génération de vidéos conditionnées par du texte ou des images. Cependant, la modification des trajectoires de caméra d'une vidéo donnée reste peu explorée, malgré son importance dans le domaine de la création vidéo. Cette tâche est complexe en raison des contraintes supplémentaires liées au maintien de l'apparence multi-images et de la synchronisation dynamique. Pour y remédier, nous présentons ReCamMaster, un cadre de re-rendu vidéo génératif contrôlé par caméra qui reproduit la scène dynamique d'une vidéo d'entrée selon de nouvelles trajectoires de caméra. L'innovation principale réside dans l'exploitation des capacités génératives des modèles pré-entraînés de texte-à-vidéo grâce à un mécanisme de conditionnement vidéo simple mais puissant — une capacité souvent négligée dans les recherches actuelles. Pour pallier le manque de données d'entraînement qualifiées, nous avons construit un ensemble de données vidéo synchronisées multi-caméras complet à l'aide d'Unreal Engine 5, soigneusement conçu pour suivre les caractéristiques de tournage du monde réel, couvrant des scènes et des mouvements de caméra divers. Cela aide le modèle à généraliser aux vidéos en conditions réelles. Enfin, nous améliorons davantage la robustesse à des entrées variées grâce à une stratégie d'entraînement méticuleusement conçue. Des expériences approfondies montrent que notre méthode surpasse largement les approches existantes de pointe et les bases de référence solides. Notre méthode trouve également des applications prometteuses dans la stabilisation vidéo, la super-résolution et l'extrapolation. Page du projet : https://jianhongbai.github.io/ReCamMaster/
English
Camera control has been actively studied in text or image conditioned video
generation tasks. However, altering camera trajectories of a given video
remains under-explored, despite its importance in the field of video creation.
It is non-trivial due to the extra constraints of maintaining multiple-frame
appearance and dynamic synchronization. To address this, we present
ReCamMaster, a camera-controlled generative video re-rendering framework that
reproduces the dynamic scene of an input video at novel camera trajectories.
The core innovation lies in harnessing the generative capabilities of
pre-trained text-to-video models through a simple yet powerful video
conditioning mechanism -- its capability often overlooked in current research.
To overcome the scarcity of qualified training data, we construct a
comprehensive multi-camera synchronized video dataset using Unreal Engine 5,
which is carefully curated to follow real-world filming characteristics,
covering diverse scenes and camera movements. It helps the model generalize to
in-the-wild videos. Lastly, we further improve the robustness to diverse inputs
through a meticulously designed training strategy. Extensive experiments tell
that our method substantially outperforms existing state-of-the-art approaches
and strong baselines. Our method also finds promising applications in video
stabilization, super-resolution, and outpainting. Project page:
https://jianhongbai.github.io/ReCamMaster/