ReCamMaster: Rendering Generativo Controllato dalla Fotocamera da un Singolo VideoReCamMaster: Camera-Controlled Generative Rendering from A Single Video
Il controllo della fotocamera è stato ampiamente studiato nei compiti di generazione video condizionati da testo o immagini. Tuttavia, la modifica delle traiettorie della fotocamera di un video dato rimane poco esplorata, nonostante la sua importanza nel campo della creazione video. Questo compito è non banale a causa dei vincoli aggiuntivi di mantenere l'aspetto multi-frame e la sincronizzazione dinamica. Per affrontare questo problema, presentiamo ReCamMaster, un framework di re-rendering video generativo controllato dalla fotocamera che riproduce la scena dinamica di un video di input con nuove traiettorie della fotocamera. L'innovazione principale risiede nello sfruttare le capacità generative di modelli pre-addestrati di testo-a-video attraverso un meccanismo di condizionamento video semplice ma potente, la cui capacità è spesso trascurata nella ricerca attuale. Per superare la scarsità di dati di addestramento qualificati, abbiamo costruito un dataset completo di video sincronizzati multi-fotocamera utilizzando Unreal Engine 5, accuratamente curato per seguire le caratteristiche di ripresa del mondo reale, coprendo scene e movimenti della fotocamera diversi. Questo aiuta il modello a generalizzare su video in condizioni reali. Infine, abbiamo ulteriormente migliorato la robustezza a input diversi attraverso una strategia di addestramento meticolosamente progettata. Esperimenti estesi dimostrano che il nostro metodo supera significativamente gli approcci state-of-the-art esistenti e baseline solide. Il nostro metodo trova anche promettenti applicazioni nella stabilizzazione video, super-risoluzione e outpainting. Pagina del progetto: https://jianhongbai.github.io/ReCamMaster/