ReCamMaster: Генеративная визуализация с управлением камерой на основе одного видеоролика
ReCamMaster: Camera-Controlled Generative Rendering from A Single Video
March 14, 2025
Авторы: Jianhong Bai, Menghan Xia, Xiao Fu, Xintao Wang, Lianrui Mu, Jinwen Cao, Zuozhu Liu, Haoji Hu, Xiang Bai, Pengfei Wan, Di Zhang
cs.AI
Аннотация
Управление камерой активно изучается в задачах генерации видео, обусловленных текстом или изображением. Однако изменение траекторий камеры для заданного видео остается недостаточно исследованным, несмотря на его важность в области создания видео. Это нетривиальная задача из-за дополнительных ограничений, связанных с поддержанием внешнего вида на нескольких кадрах и синхронизацией динамики. Для решения этой проблемы мы представляем ReCamMaster — фреймворк для генеративного перерендеринга видео с управлением камерой, который воспроизводит динамическую сцену входного видео на новых траекториях камеры. Основное нововведение заключается в использовании генеративных возможностей предварительно обученных моделей "текст-в-видео" через простой, но мощный механизм обусловливания видео — его потенциал часто упускается из виду в современных исследованиях. Чтобы преодолеть нехватку качественных данных для обучения, мы создаем всеобъемлющий набор данных синхронизированных видео с нескольких камер с использованием Unreal Engine 5, который тщательно подобран в соответствии с характеристиками реальной съемки, охватывая разнообразные сцены и движения камеры. Это помогает модели обобщать данные для видео в реальных условиях. Наконец, мы дополнительно повышаем устойчивость к разнообразным входным данным с помощью тщательно разработанной стратегии обучения. Многочисленные эксперименты показывают, что наш метод значительно превосходит существующие передовые подходы и сильные базовые методы. Наш метод также находит перспективные применения в стабилизации видео, увеличении разрешения и расширении кадра. Страница проекта: https://jianhongbai.github.io/ReCamMaster/
English
Camera control has been actively studied in text or image conditioned video
generation tasks. However, altering camera trajectories of a given video
remains under-explored, despite its importance in the field of video creation.
It is non-trivial due to the extra constraints of maintaining multiple-frame
appearance and dynamic synchronization. To address this, we present
ReCamMaster, a camera-controlled generative video re-rendering framework that
reproduces the dynamic scene of an input video at novel camera trajectories.
The core innovation lies in harnessing the generative capabilities of
pre-trained text-to-video models through a simple yet powerful video
conditioning mechanism -- its capability often overlooked in current research.
To overcome the scarcity of qualified training data, we construct a
comprehensive multi-camera synchronized video dataset using Unreal Engine 5,
which is carefully curated to follow real-world filming characteristics,
covering diverse scenes and camera movements. It helps the model generalize to
in-the-wild videos. Lastly, we further improve the robustness to diverse inputs
through a meticulously designed training strategy. Extensive experiments tell
that our method substantially outperforms existing state-of-the-art approaches
and strong baselines. Our method also finds promising applications in video
stabilization, super-resolution, and outpainting. Project page:
https://jianhongbai.github.io/ReCamMaster/Summary
AI-Generated Summary