ReCamMaster: Camera-gestuurde generatieve rendering vanuit een enkele videoReCamMaster: Camera-Controlled Generative Rendering from A Single Video
Camerabesturing is actief bestudeerd in tekst- of beeldgeconditioneerde videogeneratietaken. Het aanpassen van cameratrajecten van een gegeven video blijft echter onderbelicht, ondanks het belang ervan op het gebied van videoproductie. Dit is niet triviaal vanwege de extra beperkingen van het behouden van het uiterlijk over meerdere frames en dynamische synchronisatie. Om dit aan te pakken, presenteren we ReCamMaster, een camerabestuurd generatief videoherweergaveframework dat de dynamische scène van een invoervideo reproduceert bij nieuwe cameratrajecten. De kerninnovatie ligt in het benutten van de generatieve mogelijkheden van vooraf getrainde tekst-naar-videomodellen via een eenvoudig maar krachtig videoconditioneringsmechanisme — een mogelijkheid die in het huidige onderzoek vaak over het hoofd wordt gezien. Om het gebrek aan gekwalificeerde trainingsdata te overwinnen, construeren we een uitgebreide multi-camera gesynchroniseerde videodataset met behulp van Unreal Engine 5, die zorgvuldig is samengesteld om real-world filmkenmerken te volgen, met diverse scènes en camerabewegingen. Dit helpt het model om te generaliseren naar video’s in de praktijk. Ten slotte verbeteren we de robuustheid voor diverse invoeren verder via een nauwkeurig ontworpen trainingsstrategie. Uitgebreide experimenten tonen aan dat onze methode aanzienlijk beter presteert dan bestaande state-of-the-art benaderingen en sterke baselines. Onze methode vindt ook veelbelovende toepassingen in videostabilisatie, superresolutie en uitbreiding. Projectpagina: https://jianhongbai.github.io/ReCamMaster/