ReCamMaster: Camera-gestuurde generatieve rendering vanuit een enkele video
ReCamMaster: Camera-Controlled Generative Rendering from A Single Video
March 14, 2025
Auteurs: Jianhong Bai, Menghan Xia, Xiao Fu, Xintao Wang, Lianrui Mu, Jinwen Cao, Zuozhu Liu, Haoji Hu, Xiang Bai, Pengfei Wan, Di Zhang
cs.AI
Samenvatting
Camerabesturing is actief bestudeerd in tekst- of beeldgeconditioneerde videogeneratietaken. Het aanpassen van cameratrajecten van een gegeven video blijft echter onderbelicht, ondanks het belang ervan op het gebied van videoproductie. Dit is niet triviaal vanwege de extra beperkingen van het behouden van het uiterlijk over meerdere frames en dynamische synchronisatie. Om dit aan te pakken, presenteren we ReCamMaster, een camerabestuurd generatief videoherweergaveframework dat de dynamische scène van een invoervideo reproduceert bij nieuwe cameratrajecten. De kerninnovatie ligt in het benutten van de generatieve mogelijkheden van vooraf getrainde tekst-naar-videomodellen via een eenvoudig maar krachtig videoconditioneringsmechanisme — een mogelijkheid die in het huidige onderzoek vaak over het hoofd wordt gezien. Om het gebrek aan gekwalificeerde trainingsdata te overwinnen, construeren we een uitgebreide multi-camera gesynchroniseerde videodataset met behulp van Unreal Engine 5, die zorgvuldig is samengesteld om real-world filmkenmerken te volgen, met diverse scènes en camerabewegingen. Dit helpt het model om te generaliseren naar video’s in de praktijk. Ten slotte verbeteren we de robuustheid voor diverse invoeren verder via een nauwkeurig ontworpen trainingsstrategie. Uitgebreide experimenten tonen aan dat onze methode aanzienlijk beter presteert dan bestaande state-of-the-art benaderingen en sterke baselines. Onze methode vindt ook veelbelovende toepassingen in videostabilisatie, superresolutie en uitbreiding. Projectpagina: https://jianhongbai.github.io/ReCamMaster/
English
Camera control has been actively studied in text or image conditioned video
generation tasks. However, altering camera trajectories of a given video
remains under-explored, despite its importance in the field of video creation.
It is non-trivial due to the extra constraints of maintaining multiple-frame
appearance and dynamic synchronization. To address this, we present
ReCamMaster, a camera-controlled generative video re-rendering framework that
reproduces the dynamic scene of an input video at novel camera trajectories.
The core innovation lies in harnessing the generative capabilities of
pre-trained text-to-video models through a simple yet powerful video
conditioning mechanism -- its capability often overlooked in current research.
To overcome the scarcity of qualified training data, we construct a
comprehensive multi-camera synchronized video dataset using Unreal Engine 5,
which is carefully curated to follow real-world filming characteristics,
covering diverse scenes and camera movements. It helps the model generalize to
in-the-wild videos. Lastly, we further improve the robustness to diverse inputs
through a meticulously designed training strategy. Extensive experiments tell
that our method substantially outperforms existing state-of-the-art approaches
and strong baselines. Our method also finds promising applications in video
stabilization, super-resolution, and outpainting. Project page:
https://jianhongbai.github.io/ReCamMaster/Summary
AI-Generated Summary