ReCamMaster: Camera-gestuurde generatieve rendering vanuit een enkele video

Samenvatting

Camerabesturing is actief bestudeerd in tekst- of beeldgeconditioneerde videogeneratietaken. Het aanpassen van cameratrajecten van een gegeven video blijft echter onderbelicht, ondanks het belang ervan op het gebied van videoproductie. Dit is niet triviaal vanwege de extra beperkingen van het behouden van het uiterlijk over meerdere frames en dynamische synchronisatie. Om dit aan te pakken, presenteren we ReCamMaster, een camerabestuurd generatief videoherweergaveframework dat de dynamische scène van een invoervideo reproduceert bij nieuwe cameratrajecten. De kerninnovatie ligt in het benutten van de generatieve mogelijkheden van vooraf getrainde tekst-naar-videomodellen via een eenvoudig maar krachtig videoconditioneringsmechanisme — een mogelijkheid die in het huidige onderzoek vaak over het hoofd wordt gezien. Om het gebrek aan gekwalificeerde trainingsdata te overwinnen, construeren we een uitgebreide multi-camera gesynchroniseerde videodataset met behulp van Unreal Engine 5, die zorgvuldig is samengesteld om real-world filmkenmerken te volgen, met diverse scènes en camerabewegingen. Dit helpt het model om te generaliseren naar video’s in de praktijk. Ten slotte verbeteren we de robuustheid voor diverse invoeren verder via een nauwkeurig ontworpen trainingsstrategie. Uitgebreide experimenten tonen aan dat onze methode aanzienlijk beter presteert dan bestaande state-of-the-art benaderingen en sterke baselines. Onze methode vindt ook veelbelovende toepassingen in videostabilisatie, superresolutie en uitbreiding. Projectpagina: https://jianhongbai.github.io/ReCamMaster/

English

Camera control has been actively studied in text or image conditioned video generation tasks. However, altering camera trajectories of a given video remains under-explored, despite its importance in the field of video creation. It is non-trivial due to the extra constraints of maintaining multiple-frame appearance and dynamic synchronization. To address this, we present ReCamMaster, a camera-controlled generative video re-rendering framework that reproduces the dynamic scene of an input video at novel camera trajectories. The core innovation lies in harnessing the generative capabilities of pre-trained text-to-video models through a simple yet powerful video conditioning mechanism -- its capability often overlooked in current research. To overcome the scarcity of qualified training data, we construct a comprehensive multi-camera synchronized video dataset using Unreal Engine 5, which is carefully curated to follow real-world filming characteristics, covering diverse scenes and camera movements. It helps the model generalize to in-the-wild videos. Lastly, we further improve the robustness to diverse inputs through a meticulously designed training strategy. Extensive experiments tell that our method substantially outperforms existing state-of-the-art approaches and strong baselines. Our method also finds promising applications in video stabilization, super-resolution, and outpainting. Project page: https://jianhongbai.github.io/ReCamMaster/

ReCamMaster: Camera-gestuurde generatieve rendering vanuit een enkele video

ReCamMaster: Camera-Controlled Generative Rendering from A Single Video

Samenvatting

Support