EPiC: Apprendimento Efficiente del Controllo della Videocamera con Guida Precisa Anchor-Video
EPiC: Efficient Video Camera Control Learning with Precise Anchor-Video Guidance
May 28, 2025
Autori: Zun Wang, Jaemin Cho, Jialu Li, Han Lin, Jaehong Yoon, Yue Zhang, Mohit Bansal
cs.AI
Abstract
I recenti approcci sul controllo della telecamera 3D nei modelli di diffusione video (VDM) spesso creano video di ancoraggio per guidare i modelli di diffusione come un priore strutturato, renderizzando da nuvole di punti stimate seguendo traiettorie della telecamera annotate. Tuttavia, gli errori intrinseci nella stima delle nuvole di punti spesso portano a video di ancoraggio imprecisi. Inoltre, la necessità di ampie annotazioni delle traiettorie della telecamera aumenta ulteriormente le richieste di risorse. Per affrontare queste limitazioni, introduciamo EPiC, un framework di apprendimento per il controllo della telecamera efficiente e preciso che costruisce automaticamente video di ancoraggio di alta qualità senza costose annotazioni delle traiettorie della telecamera. Nello specifico, creiamo video di ancoraggio altamente precisi per l'addestramento mascherando i video sorgente in base alla visibilità del primo fotogramma. Questo approccio garantisce un elevato allineamento, elimina la necessità di annotazioni delle traiettorie della telecamera e può quindi essere facilmente applicato a qualsiasi video in-the-wild per generare coppie di addestramento immagine-video (I2V). Inoltre, introduciamo Anchor-ControlNet, un modulo di condizionamento leggero che integra la guida del video di ancoraggio nelle regioni visibili ai VDM pre-addestrati, con meno dell'1% dei parametri del modello principale. Combinando i dati del video di ancoraggio proposti e il modulo ControlNet, EPiC raggiunge un addestramento efficiente con un numero sostanzialmente inferiore di parametri, passi di addestramento e meno dati, senza richiedere modifiche al modello di diffusione principale tipicamente necessarie per mitigare i disallineamenti di rendering. Sebbene sia addestrato su video di ancoraggio basati su mascheratura, il nostro metodo si generalizza robustamente a video di ancoraggio creati con nuvole di punti durante l'inferenza, consentendo un controllo preciso della telecamera informato in 3D. EPiC raggiunge prestazioni all'avanguardia su RealEstate10K e MiraData per il compito di controllo della telecamera I2V, dimostrando un'abilità di controllo della telecamera precisa e robusta sia quantitativamente che qualitativamente. In particolare, EPiC mostra anche una forte generalizzazione zero-shot agli scenari video-to-video.
English
Recent approaches on 3D camera control in video diffusion models (VDMs) often
create anchor videos to guide diffusion models as a structured prior by
rendering from estimated point clouds following annotated camera trajectories.
However, errors inherent in point cloud estimation often lead to inaccurate
anchor videos. Moreover, the requirement for extensive camera trajectory
annotations further increases resource demands. To address these limitations,
we introduce EPiC, an efficient and precise camera control learning framework
that automatically constructs high-quality anchor videos without expensive
camera trajectory annotations. Concretely, we create highly precise anchor
videos for training by masking source videos based on first-frame visibility.
This approach ensures high alignment, eliminates the need for camera trajectory
annotations, and thus can be readily applied to any in-the-wild video to
generate image-to-video (I2V) training pairs. Furthermore, we introduce
Anchor-ControlNet, a lightweight conditioning module that integrates anchor
video guidance in visible regions to pretrained VDMs, with less than 1% of
backbone model parameters. By combining the proposed anchor video data and
ControlNet module, EPiC achieves efficient training with substantially fewer
parameters, training steps, and less data, without requiring modifications to
the diffusion model backbone typically needed to mitigate rendering
misalignments. Although being trained on masking-based anchor videos, our
method generalizes robustly to anchor videos made with point clouds during
inference, enabling precise 3D-informed camera control. EPiC achieves SOTA
performance on RealEstate10K and MiraData for I2V camera control task,
demonstrating precise and robust camera control ability both quantitatively and
qualitatively. Notably, EPiC also exhibits strong zero-shot generalization to
video-to-video scenarios.