ChatPaper.aiChatPaper

EPiC: Aprendizaje Eficiente del Control de Cámaras de Video con Guía Precisa de Anclaje-Video

EPiC: Efficient Video Camera Control Learning with Precise Anchor-Video Guidance

May 28, 2025
Autores: Zun Wang, Jaemin Cho, Jialu Li, Han Lin, Jaehong Yoon, Yue Zhang, Mohit Bansal
cs.AI

Resumen

Los enfoques recientes sobre el control de cámaras 3D en modelos de difusión de video (VDMs, por sus siglas en inglés) suelen crear videos de anclaje para guiar a los modelos de difusión como un prior estructurado, mediante la renderización a partir de nubes de puntos estimadas siguiendo trayectorias de cámara anotadas. Sin embargo, los errores inherentes a la estimación de nubes de puntos a menudo resultan en videos de anclaje imprecisos. Además, la necesidad de anotaciones extensas de trayectorias de cámara incrementa aún más la demanda de recursos. Para abordar estas limitaciones, presentamos EPiC, un marco de aprendizaje de control de cámara eficiente y preciso que construye automáticamente videos de anclaje de alta calidad sin la necesidad de costosas anotaciones de trayectorias de cámara. Concretamente, creamos videos de anclaje altamente precisos para el entrenamiento enmascarando videos fuente basados en la visibilidad del primer fotograma. Este enfoque garantiza una alta alineación, elimina la necesidad de anotaciones de trayectorias de cámara y, por lo tanto, puede aplicarse fácilmente a cualquier video en condiciones naturales para generar pares de entrenamiento de imagen a video (I2V). Además, introducimos Anchor-ControlNet, un módulo de condicionamiento ligero que integra la guía de videos de anclaje en regiones visibles a los VDMs preentrenados, con menos del 1% de los parámetros del modelo base. Al combinar los datos de video de anclaje propuestos y el módulo ControlNet, EPiC logra un entrenamiento eficiente con sustancialmente menos parámetros, pasos de entrenamiento y datos, sin requerir modificaciones en el modelo base de difusión que normalmente se necesitan para mitigar desalineaciones en la renderización. Aunque se entrena con videos de anclaje basados en enmascaramiento, nuestro método generaliza robustamente a videos de anclaje creados con nubes de puntos durante la inferencia, permitiendo un control de cámara preciso e informado en 3D. EPiC alcanza un rendimiento de vanguardia en RealEstate10K y MiraData para la tarea de control de cámara I2V, demostrando una capacidad de control de cámara precisa y robusta tanto cuantitativa como cualitativamente. Notablemente, EPiC también exhibe una fuerte generalización zero-shot en escenarios de video a video.
English
Recent approaches on 3D camera control in video diffusion models (VDMs) often create anchor videos to guide diffusion models as a structured prior by rendering from estimated point clouds following annotated camera trajectories. However, errors inherent in point cloud estimation often lead to inaccurate anchor videos. Moreover, the requirement for extensive camera trajectory annotations further increases resource demands. To address these limitations, we introduce EPiC, an efficient and precise camera control learning framework that automatically constructs high-quality anchor videos without expensive camera trajectory annotations. Concretely, we create highly precise anchor videos for training by masking source videos based on first-frame visibility. This approach ensures high alignment, eliminates the need for camera trajectory annotations, and thus can be readily applied to any in-the-wild video to generate image-to-video (I2V) training pairs. Furthermore, we introduce Anchor-ControlNet, a lightweight conditioning module that integrates anchor video guidance in visible regions to pretrained VDMs, with less than 1% of backbone model parameters. By combining the proposed anchor video data and ControlNet module, EPiC achieves efficient training with substantially fewer parameters, training steps, and less data, without requiring modifications to the diffusion model backbone typically needed to mitigate rendering misalignments. Although being trained on masking-based anchor videos, our method generalizes robustly to anchor videos made with point clouds during inference, enabling precise 3D-informed camera control. EPiC achieves SOTA performance on RealEstate10K and MiraData for I2V camera control task, demonstrating precise and robust camera control ability both quantitatively and qualitatively. Notably, EPiC also exhibits strong zero-shot generalization to video-to-video scenarios.

Summary

AI-Generated Summary

PDF92May 29, 2025