ChatPaper.aiChatPaper

ReCamMaster: Renderizado Generativo Controlado por Cámara a partir de un Único Video

ReCamMaster: Camera-Controlled Generative Rendering from A Single Video

March 14, 2025
Autores: Jianhong Bai, Menghan Xia, Xiao Fu, Xintao Wang, Lianrui Mu, Jinwen Cao, Zuozhu Liu, Haoji Hu, Xiang Bai, Pengfei Wan, Di Zhang
cs.AI

Resumen

El control de cámara ha sido ampliamente estudiado en tareas de generación de video condicionado por texto o imágenes. Sin embargo, la modificación de trayectorias de cámara en un video dado sigue siendo un área poco explorada, a pesar de su importancia en el campo de la creación de videos. Esto no es trivial debido a las restricciones adicionales de mantener la apariencia en múltiples fotogramas y la sincronización dinámica. Para abordar este desafío, presentamos ReCamMaster, un marco de re-renderizado generativo de video controlado por cámara que reproduce la escena dinámica de un video de entrada en nuevas trayectorias de cámara. La innovación central radica en aprovechar las capacidades generativas de modelos preentrenados de texto a video mediante un mecanismo de condicionamiento de video simple pero potente, cuya capacidad a menudo se pasa por alto en la investigación actual. Para superar la escasez de datos de entrenamiento calificados, construimos un conjunto de datos completo de video sincronizado con múltiples cámaras utilizando Unreal Engine 5, el cual está cuidadosamente seleccionado para seguir características de filmación del mundo real, abarcando diversas escenas y movimientos de cámara. Esto ayuda al modelo a generalizar en videos del mundo real. Por último, mejoramos aún más la robustez frente a entradas diversas mediante una estrategia de entrenamiento meticulosamente diseñada. Experimentos exhaustivos demuestran que nuestro método supera sustancialmente a los enfoques más avanzados y líneas base sólidas existentes. Nuestro método también encuentra aplicaciones prometedoras en estabilización de video, super-resolución y expansión de video. Página del proyecto: https://jianhongbai.github.io/ReCamMaster/
English
Camera control has been actively studied in text or image conditioned video generation tasks. However, altering camera trajectories of a given video remains under-explored, despite its importance in the field of video creation. It is non-trivial due to the extra constraints of maintaining multiple-frame appearance and dynamic synchronization. To address this, we present ReCamMaster, a camera-controlled generative video re-rendering framework that reproduces the dynamic scene of an input video at novel camera trajectories. The core innovation lies in harnessing the generative capabilities of pre-trained text-to-video models through a simple yet powerful video conditioning mechanism -- its capability often overlooked in current research. To overcome the scarcity of qualified training data, we construct a comprehensive multi-camera synchronized video dataset using Unreal Engine 5, which is carefully curated to follow real-world filming characteristics, covering diverse scenes and camera movements. It helps the model generalize to in-the-wild videos. Lastly, we further improve the robustness to diverse inputs through a meticulously designed training strategy. Extensive experiments tell that our method substantially outperforms existing state-of-the-art approaches and strong baselines. Our method also finds promising applications in video stabilization, super-resolution, and outpainting. Project page: https://jianhongbai.github.io/ReCamMaster/

Summary

AI-Generated Summary

PDF1405March 17, 2025