EPiC: Effizientes Erlernen der Videokamerasteuerung mit präziser Anker-Video-Führung
EPiC: Efficient Video Camera Control Learning with Precise Anchor-Video Guidance
May 28, 2025
Autoren: Zun Wang, Jaemin Cho, Jialu Li, Han Lin, Jaehong Yoon, Yue Zhang, Mohit Bansal
cs.AI
Zusammenfassung
Aktuelle Ansätze zur 3D-Kamerasteuerung in Video-Diffusionsmodellen (VDMs) erstellen häufig Ankervideos, um die Diffusionsmodelle als strukturierte Prior zu leiten, indem sie aus geschätzten Punktwolken entlang annotierter Kameratrajektorien rendern. Allerdings führen Fehler in der Punktwolkenschätzung oft zu ungenauen Ankervideos. Darüber hinaus erhöht die Anforderung umfangreicher Kameratrajektorien-Annotationen den Ressourcenbedarf weiter. Um diese Einschränkungen zu überwinden, führen wir EPiC ein, ein effizientes und präzises Framework zur Kamerasteuerung, das automatisch hochwertige Ankervideos ohne kostspielige Kameratrajektorien-Annotationen erstellt. Konkret erstellen wir hochpräzise Ankervideos für das Training, indem wir Quellvideos basierend auf der Sichtbarkeit des ersten Frames maskieren. Dieser Ansatz gewährleistet eine hohe Ausrichtung, eliminiert die Notwendigkeit von Kameratrajektorien-Annotationen und kann somit problemlos auf jedes beliebige Video angewendet werden, um Bild-zu-Video (I2V)-Trainingspaare zu generieren. Darüber hinaus führen wir Anchor-ControlNet ein, ein leichtgewichtiges Konditionierungsmodul, das die Ankervideo-Führung in sichtbaren Regionen in vortrainierte VDMs integriert, mit weniger als 1 % der Parameter des Basismodells. Durch die Kombination der vorgeschlagenen Ankervideo-Daten und des ControlNet-Moduls erreicht EPiC ein effizientes Training mit deutlich weniger Parametern, Trainingsschritten und weniger Daten, ohne dass Änderungen am Diffusionsmodell-Backbone erforderlich sind, die typischerweise zur Minderung von Rendering-Fehlausrichtungen benötigt werden. Obwohl unser Modell auf maskenbasierten Ankervideos trainiert wird, verallgemeinert es robust auf Ankervideos, die mit Punktwolken während der Inferenz erstellt wurden, und ermöglicht so eine präzise 3D-informierte Kamerasteuerung. EPiC erreicht state-of-the-art (SOTA) Leistung auf RealEstate10K und MiraData für die I2V-Kamerasteuerungsaufgabe und zeigt sowohl quantitativ als auch qualitativ präzise und robuste Kamerasteuerungsfähigkeiten. Bemerkenswerterweise zeigt EPiC auch eine starke Zero-Shot-Generalisierung auf Video-zu-Video-Szenarien.
English
Recent approaches on 3D camera control in video diffusion models (VDMs) often
create anchor videos to guide diffusion models as a structured prior by
rendering from estimated point clouds following annotated camera trajectories.
However, errors inherent in point cloud estimation often lead to inaccurate
anchor videos. Moreover, the requirement for extensive camera trajectory
annotations further increases resource demands. To address these limitations,
we introduce EPiC, an efficient and precise camera control learning framework
that automatically constructs high-quality anchor videos without expensive
camera trajectory annotations. Concretely, we create highly precise anchor
videos for training by masking source videos based on first-frame visibility.
This approach ensures high alignment, eliminates the need for camera trajectory
annotations, and thus can be readily applied to any in-the-wild video to
generate image-to-video (I2V) training pairs. Furthermore, we introduce
Anchor-ControlNet, a lightweight conditioning module that integrates anchor
video guidance in visible regions to pretrained VDMs, with less than 1% of
backbone model parameters. By combining the proposed anchor video data and
ControlNet module, EPiC achieves efficient training with substantially fewer
parameters, training steps, and less data, without requiring modifications to
the diffusion model backbone typically needed to mitigate rendering
misalignments. Although being trained on masking-based anchor videos, our
method generalizes robustly to anchor videos made with point clouds during
inference, enabling precise 3D-informed camera control. EPiC achieves SOTA
performance on RealEstate10K and MiraData for I2V camera control task,
demonstrating precise and robust camera control ability both quantitatively and
qualitatively. Notably, EPiC also exhibits strong zero-shot generalization to
video-to-video scenarios.Summary
AI-Generated Summary