ReCamMaster: Rendering Generativo Controllato dalla Fotocamera da un Singolo Video
ReCamMaster: Camera-Controlled Generative Rendering from A Single Video
March 14, 2025
Autori: Jianhong Bai, Menghan Xia, Xiao Fu, Xintao Wang, Lianrui Mu, Jinwen Cao, Zuozhu Liu, Haoji Hu, Xiang Bai, Pengfei Wan, Di Zhang
cs.AI
Abstract
Il controllo della fotocamera è stato ampiamente studiato nei compiti di generazione video condizionati da testo o immagini. Tuttavia, la modifica delle traiettorie della fotocamera di un video dato rimane poco esplorata, nonostante la sua importanza nel campo della creazione video. Questo compito è non banale a causa dei vincoli aggiuntivi di mantenere l'aspetto multi-frame e la sincronizzazione dinamica. Per affrontare questo problema, presentiamo ReCamMaster, un framework di re-rendering video generativo controllato dalla fotocamera che riproduce la scena dinamica di un video di input con nuove traiettorie della fotocamera. L'innovazione principale risiede nello sfruttare le capacità generative di modelli pre-addestrati di testo-a-video attraverso un meccanismo di condizionamento video semplice ma potente, la cui capacità è spesso trascurata nella ricerca attuale. Per superare la scarsità di dati di addestramento qualificati, abbiamo costruito un dataset completo di video sincronizzati multi-fotocamera utilizzando Unreal Engine 5, accuratamente curato per seguire le caratteristiche di ripresa del mondo reale, coprendo scene e movimenti della fotocamera diversi. Questo aiuta il modello a generalizzare su video in condizioni reali. Infine, abbiamo ulteriormente migliorato la robustezza a input diversi attraverso una strategia di addestramento meticolosamente progettata. Esperimenti estesi dimostrano che il nostro metodo supera significativamente gli approcci state-of-the-art esistenti e baseline solide. Il nostro metodo trova anche promettenti applicazioni nella stabilizzazione video, super-risoluzione e outpainting. Pagina del progetto: https://jianhongbai.github.io/ReCamMaster/
English
Camera control has been actively studied in text or image conditioned video
generation tasks. However, altering camera trajectories of a given video
remains under-explored, despite its importance in the field of video creation.
It is non-trivial due to the extra constraints of maintaining multiple-frame
appearance and dynamic synchronization. To address this, we present
ReCamMaster, a camera-controlled generative video re-rendering framework that
reproduces the dynamic scene of an input video at novel camera trajectories.
The core innovation lies in harnessing the generative capabilities of
pre-trained text-to-video models through a simple yet powerful video
conditioning mechanism -- its capability often overlooked in current research.
To overcome the scarcity of qualified training data, we construct a
comprehensive multi-camera synchronized video dataset using Unreal Engine 5,
which is carefully curated to follow real-world filming characteristics,
covering diverse scenes and camera movements. It helps the model generalize to
in-the-wild videos. Lastly, we further improve the robustness to diverse inputs
through a meticulously designed training strategy. Extensive experiments tell
that our method substantially outperforms existing state-of-the-art approaches
and strong baselines. Our method also finds promising applications in video
stabilization, super-resolution, and outpainting. Project page:
https://jianhongbai.github.io/ReCamMaster/