ChatPaper.aiChatPaper

EPiC : Apprentissage efficace du contrôle de caméra vidéo avec un guidage précis ancre-vidéo

EPiC: Efficient Video Camera Control Learning with Precise Anchor-Video Guidance

May 28, 2025
Auteurs: Zun Wang, Jaemin Cho, Jialu Li, Han Lin, Jaehong Yoon, Yue Zhang, Mohit Bansal
cs.AI

Résumé

Les approches récentes sur le contrôle de caméra 3D dans les modèles de diffusion vidéo (VDMs) créent souvent des vidéos d'ancrage pour guider les modèles de diffusion en tant que prior structuré, en rendant des nuages de points estimés suivant des trajectoires de caméra annotées. Cependant, les erreurs inhérentes à l'estimation des nuages de points conduisent souvent à des vidéos d'ancrage imprécises. De plus, la nécessité d'annotations extensives des trajectoires de caméra augmente davantage les demandes en ressources. Pour pallier ces limitations, nous introduisons EPiC, un cadre d'apprentissage de contrôle de caméra efficace et précis qui construit automatiquement des vidéos d'ancrage de haute qualité sans annotations coûteuses de trajectoires de caméra. Concrètement, nous créons des vidéos d'ancrage très précises pour l'entraînement en masquant les vidéos sources en fonction de la visibilité de la première image. Cette approche garantit un alignement élevé, élimine le besoin d'annotations de trajectoires de caméra, et peut donc être facilement appliquée à toute vidéo in-the-wild pour générer des paires d'entraînement image-à-vidéo (I2V). En outre, nous introduisons Anchor-ControlNet, un module de conditionnement léger qui intègre le guidage des vidéos d'ancrage dans les régions visibles aux VDMs pré-entraînés, avec moins de 1 % des paramètres du modèle de base. En combinant les données de vidéo d'ancrage proposées et le module ControlNet, EPiC permet un entraînement efficace avec nettement moins de paramètres, d'étapes d'entraînement et de données, sans nécessiter de modifications du modèle de base de diffusion typiquement requises pour atténuer les désalignements de rendu. Bien qu'entraîné sur des vidéos d'ancrage basées sur le masquage, notre méthode se généralise robustement aux vidéos d'ancrage créées avec des nuages de points lors de l'inférence, permettant un contrôle de caméra 3D informé précis. EPiC atteint des performances SOTA sur RealEstate10K et MiraData pour la tâche de contrôle de caméra I2V, démontrant une capacité de contrôle de caméra précise et robuste à la fois quantitativement et qualitativement. Notamment, EPiC montre également une forte généralisation zero-shot aux scénarios vidéo-à-vidéo.
English
Recent approaches on 3D camera control in video diffusion models (VDMs) often create anchor videos to guide diffusion models as a structured prior by rendering from estimated point clouds following annotated camera trajectories. However, errors inherent in point cloud estimation often lead to inaccurate anchor videos. Moreover, the requirement for extensive camera trajectory annotations further increases resource demands. To address these limitations, we introduce EPiC, an efficient and precise camera control learning framework that automatically constructs high-quality anchor videos without expensive camera trajectory annotations. Concretely, we create highly precise anchor videos for training by masking source videos based on first-frame visibility. This approach ensures high alignment, eliminates the need for camera trajectory annotations, and thus can be readily applied to any in-the-wild video to generate image-to-video (I2V) training pairs. Furthermore, we introduce Anchor-ControlNet, a lightweight conditioning module that integrates anchor video guidance in visible regions to pretrained VDMs, with less than 1% of backbone model parameters. By combining the proposed anchor video data and ControlNet module, EPiC achieves efficient training with substantially fewer parameters, training steps, and less data, without requiring modifications to the diffusion model backbone typically needed to mitigate rendering misalignments. Although being trained on masking-based anchor videos, our method generalizes robustly to anchor videos made with point clouds during inference, enabling precise 3D-informed camera control. EPiC achieves SOTA performance on RealEstate10K and MiraData for I2V camera control task, demonstrating precise and robust camera control ability both quantitatively and qualitatively. Notably, EPiC also exhibits strong zero-shot generalization to video-to-video scenarios.

Summary

AI-Generated Summary

PDF92May 29, 2025