ChatPaper.aiChatPaper

ReCamMaster: Rendering Generativo Controllato dalla Fotocamera da un Singolo Video

ReCamMaster: Camera-Controlled Generative Rendering from A Single Video

March 14, 2025
Autori: Jianhong Bai, Menghan Xia, Xiao Fu, Xintao Wang, Lianrui Mu, Jinwen Cao, Zuozhu Liu, Haoji Hu, Xiang Bai, Pengfei Wan, Di Zhang
cs.AI

Abstract

Il controllo della fotocamera è stato ampiamente studiato nei compiti di generazione video condizionati da testo o immagini. Tuttavia, la modifica delle traiettorie della fotocamera di un video dato rimane poco esplorata, nonostante la sua importanza nel campo della creazione video. Questo compito è non banale a causa dei vincoli aggiuntivi di mantenere l'aspetto multi-frame e la sincronizzazione dinamica. Per affrontare questo problema, presentiamo ReCamMaster, un framework di re-rendering video generativo controllato dalla fotocamera che riproduce la scena dinamica di un video di input con nuove traiettorie della fotocamera. L'innovazione principale risiede nello sfruttare le capacità generative di modelli pre-addestrati di testo-a-video attraverso un meccanismo di condizionamento video semplice ma potente, la cui capacità è spesso trascurata nella ricerca attuale. Per superare la scarsità di dati di addestramento qualificati, abbiamo costruito un dataset completo di video sincronizzati multi-fotocamera utilizzando Unreal Engine 5, accuratamente curato per seguire le caratteristiche di ripresa del mondo reale, coprendo scene e movimenti della fotocamera diversi. Questo aiuta il modello a generalizzare su video in condizioni reali. Infine, abbiamo ulteriormente migliorato la robustezza a input diversi attraverso una strategia di addestramento meticolosamente progettata. Esperimenti estesi dimostrano che il nostro metodo supera significativamente gli approcci state-of-the-art esistenti e baseline solide. Il nostro metodo trova anche promettenti applicazioni nella stabilizzazione video, super-risoluzione e outpainting. Pagina del progetto: https://jianhongbai.github.io/ReCamMaster/
English
Camera control has been actively studied in text or image conditioned video generation tasks. However, altering camera trajectories of a given video remains under-explored, despite its importance in the field of video creation. It is non-trivial due to the extra constraints of maintaining multiple-frame appearance and dynamic synchronization. To address this, we present ReCamMaster, a camera-controlled generative video re-rendering framework that reproduces the dynamic scene of an input video at novel camera trajectories. The core innovation lies in harnessing the generative capabilities of pre-trained text-to-video models through a simple yet powerful video conditioning mechanism -- its capability often overlooked in current research. To overcome the scarcity of qualified training data, we construct a comprehensive multi-camera synchronized video dataset using Unreal Engine 5, which is carefully curated to follow real-world filming characteristics, covering diverse scenes and camera movements. It helps the model generalize to in-the-wild videos. Lastly, we further improve the robustness to diverse inputs through a meticulously designed training strategy. Extensive experiments tell that our method substantially outperforms existing state-of-the-art approaches and strong baselines. Our method also finds promising applications in video stabilization, super-resolution, and outpainting. Project page: https://jianhongbai.github.io/ReCamMaster/
PDF1415March 17, 2025