EPiC: Aprendizado Eficiente de Controle de Câmera de Vídeo com Orientação Precisas de Âncora-Vídeo
EPiC: Efficient Video Camera Control Learning with Precise Anchor-Video Guidance
May 28, 2025
Autores: Zun Wang, Jaemin Cho, Jialu Li, Han Lin, Jaehong Yoon, Yue Zhang, Mohit Bansal
cs.AI
Resumo
Abordagens recentes para controle de câmera 3D em modelos de difusão de vídeo (VDMs) frequentemente criam vídeos âncora para guiar os modelos de difusão como um prior estruturado, renderizando a partir de nuvens de pontos estimadas seguindo trajetórias de câmera anotadas. No entanto, erros inerentes à estimativa de nuvens de pontos frequentemente resultam em vídeos âncora imprecisos. Além disso, a necessidade de extensas anotações de trajetórias de câmera aumenta ainda mais a demanda por recursos. Para abordar essas limitações, introduzimos o EPiC, um framework de aprendizado de controle de câmera eficiente e preciso que constrói automaticamente vídeos âncora de alta qualidade sem anotações caras de trajetórias de câmera. Concretamente, criamos vídeos âncora altamente precisos para treinamento mascarando vídeos de origem com base na visibilidade do primeiro quadro. Essa abordagem garante alto alinhamento, elimina a necessidade de anotações de trajetórias de câmera e, portanto, pode ser facilmente aplicada a qualquer vídeo in-the-wild para gerar pares de treinamento imagem-para-vídeo (I2V). Além disso, introduzimos o Anchor-ControlNet, um módulo de condicionamento leve que integra a orientação de vídeo âncora em regiões visíveis a VDMs pré-treinados, com menos de 1% dos parâmetros do modelo base. Ao combinar os dados de vídeo âncora propostos e o módulo ControlNet, o EPiC alcança treinamento eficiente com substancialmente menos parâmetros, etapas de treinamento e menos dados, sem exigir modificações no modelo base de difusão tipicamente necessárias para mitigar desalinhamentos de renderização. Embora treinado em vídeos âncora baseados em mascaramento, nosso método generaliza robustamente para vídeos âncora feitos com nuvens de pontos durante a inferência, permitindo controle de câmera 3D informado e preciso. O EPiC alcança desempenho SOTA no RealEstate10K e MiraData para a tarefa de controle de câmera I2V, demonstrando capacidade de controle de câmera precisa e robusta tanto quantitativamente quanto qualitativamente. Notavelmente, o EPiC também exibe forte generalização zero-shot para cenários vídeo-para-vídeo.
English
Recent approaches on 3D camera control in video diffusion models (VDMs) often
create anchor videos to guide diffusion models as a structured prior by
rendering from estimated point clouds following annotated camera trajectories.
However, errors inherent in point cloud estimation often lead to inaccurate
anchor videos. Moreover, the requirement for extensive camera trajectory
annotations further increases resource demands. To address these limitations,
we introduce EPiC, an efficient and precise camera control learning framework
that automatically constructs high-quality anchor videos without expensive
camera trajectory annotations. Concretely, we create highly precise anchor
videos for training by masking source videos based on first-frame visibility.
This approach ensures high alignment, eliminates the need for camera trajectory
annotations, and thus can be readily applied to any in-the-wild video to
generate image-to-video (I2V) training pairs. Furthermore, we introduce
Anchor-ControlNet, a lightweight conditioning module that integrates anchor
video guidance in visible regions to pretrained VDMs, with less than 1% of
backbone model parameters. By combining the proposed anchor video data and
ControlNet module, EPiC achieves efficient training with substantially fewer
parameters, training steps, and less data, without requiring modifications to
the diffusion model backbone typically needed to mitigate rendering
misalignments. Although being trained on masking-based anchor videos, our
method generalizes robustly to anchor videos made with point clouds during
inference, enabling precise 3D-informed camera control. EPiC achieves SOTA
performance on RealEstate10K and MiraData for I2V camera control task,
demonstrating precise and robust camera control ability both quantitatively and
qualitatively. Notably, EPiC also exhibits strong zero-shot generalization to
video-to-video scenarios.