ReCamMaster: Renderização Generativa Controlada por Câmera a Partir de um Único Vídeo
ReCamMaster: Camera-Controlled Generative Rendering from A Single Video
March 14, 2025
Autores: Jianhong Bai, Menghan Xia, Xiao Fu, Xintao Wang, Lianrui Mu, Jinwen Cao, Zuozhu Liu, Haoji Hu, Xiang Bai, Pengfei Wan, Di Zhang
cs.AI
Resumo
O controle de câmera tem sido amplamente estudado em tarefas de geração de vídeo condicionado por texto ou imagem. No entanto, a alteração de trajetórias de câmera em um vídeo dado permanece pouco explorada, apesar de sua importância no campo da criação de vídeos. Essa tarefa é complexa devido às restrições adicionais de manter a aparência em múltiplos quadros e a sincronização dinâmica. Para abordar esse desafio, apresentamos o ReCamMaster, um framework de re-renderização de vídeo controlado por câmera que reproduz a cena dinâmica de um vídeo de entrada em novas trajetórias de câmera. A inovação central reside em aproveitar as capacidades generativas de modelos pré-treinados de texto para vídeo por meio de um mecanismo de condicionamento de vídeo simples, porém poderoso — uma capacidade frequentemente negligenciada na pesquisa atual. Para superar a escassez de dados de treinamento qualificados, construímos um conjunto de dados abrangente de vídeos sincronizados com múltiplas câmeras usando o Unreal Engine 5, cuidadosamente curado para seguir características de filmagem do mundo real, cobrindo diversas cenas e movimentos de câmera. Isso ajuda o modelo a generalizar para vídeos em cenários reais. Por fim, aprimoramos ainda mais a robustez para entradas diversas por meio de uma estratégia de treinamento meticulosamente projetada. Experimentos extensivos mostram que nosso método supera substancialmente as abordagens state-of-the-art existentes e baselines robustas. Nosso método também encontra aplicações promissoras em estabilização de vídeo, super-resolução e expansão de cena. Página do projeto: https://jianhongbai.github.io/ReCamMaster/
English
Camera control has been actively studied in text or image conditioned video
generation tasks. However, altering camera trajectories of a given video
remains under-explored, despite its importance in the field of video creation.
It is non-trivial due to the extra constraints of maintaining multiple-frame
appearance and dynamic synchronization. To address this, we present
ReCamMaster, a camera-controlled generative video re-rendering framework that
reproduces the dynamic scene of an input video at novel camera trajectories.
The core innovation lies in harnessing the generative capabilities of
pre-trained text-to-video models through a simple yet powerful video
conditioning mechanism -- its capability often overlooked in current research.
To overcome the scarcity of qualified training data, we construct a
comprehensive multi-camera synchronized video dataset using Unreal Engine 5,
which is carefully curated to follow real-world filming characteristics,
covering diverse scenes and camera movements. It helps the model generalize to
in-the-wild videos. Lastly, we further improve the robustness to diverse inputs
through a meticulously designed training strategy. Extensive experiments tell
that our method substantially outperforms existing state-of-the-art approaches
and strong baselines. Our method also finds promising applications in video
stabilization, super-resolution, and outpainting. Project page:
https://jianhongbai.github.io/ReCamMaster/Summary
AI-Generated Summary