ChatPaper.aiChatPaper

EPiC: Efficiënt Leren van Videocamerabesturing met Nauwkeurige Anker-Video Begeleiding

EPiC: Efficient Video Camera Control Learning with Precise Anchor-Video Guidance

May 28, 2025
Auteurs: Zun Wang, Jaemin Cho, Jialu Li, Han Lin, Jaehong Yoon, Yue Zhang, Mohit Bansal
cs.AI

Samenvatting

Recente benaderingen voor 3D-camerabesturing in videodiffusiemodellen (VDMs) creëren vaak ankervideo's om diffusiemodellen te begeleiden als een gestructureerde prior door te renderen vanuit geschatte puntenwolken volgens geannoteerde cameratrajecten. Fouten die inherent zijn aan de schatting van puntenwolken leiden echter vaak tot onnauwkeurige ankervideo's. Bovendien vergroot de vereiste voor uitgebreide annotaties van cameratrajecten de vraag naar middelen verder. Om deze beperkingen aan te pakken, introduceren we EPiC, een efficiënt en precies leerframework voor camerabesturing dat automatisch hoogwaardige ankervideo's construeert zonder dure annotaties van cameratrajecten. Concreet creëren we zeer precieze ankervideo's voor training door bronvideo's te maskeren op basis van zichtbaarheid in het eerste frame. Deze aanpak zorgt voor een hoge uitlijning, elimineert de noodzaak voor annotaties van cameratrajecten en kan daardoor eenvoudig worden toegepast op elke willekeurige video om beeld-naar-video (I2V) trainingsparen te genereren. Verder introduceren we Anchor-ControlNet, een lichtgewicht conditioneringsmodule die ankervideo-begeleiding integreert in zichtbare regio's vooraf getrainde VDMs, met minder dan 1% van de parameters van het basismodel. Door de voorgestelde ankervideo-data en de ControlNet-module te combineren, bereikt EPiC efficiënte training met aanzienlijk minder parameters, trainingsstappen en minder data, zonder aanpassingen aan het diffusiemodelbasismodel die doorgaans nodig zijn om renderingsfouten te verminderen. Hoewel getraind op maskeringsgebaseerde ankervideo's, generaliseert onze methode robuust naar ankervideo's gemaakt met puntenwolken tijdens inferentie, waardoor precieze 3D-geïnformeerde camerabesturing mogelijk wordt. EPiC behaalt state-of-the-art prestaties op RealEstate10K en MiraData voor de I2V-camerabesturingstaak, wat zowel kwantitatief als kwalitatief een precieze en robuuste camerabesturingsvaardigheid aantoont. Opmerkelijk is dat EPiC ook sterke zero-shot generalisatie vertoont naar video-naar-video scenario's.
English
Recent approaches on 3D camera control in video diffusion models (VDMs) often create anchor videos to guide diffusion models as a structured prior by rendering from estimated point clouds following annotated camera trajectories. However, errors inherent in point cloud estimation often lead to inaccurate anchor videos. Moreover, the requirement for extensive camera trajectory annotations further increases resource demands. To address these limitations, we introduce EPiC, an efficient and precise camera control learning framework that automatically constructs high-quality anchor videos without expensive camera trajectory annotations. Concretely, we create highly precise anchor videos for training by masking source videos based on first-frame visibility. This approach ensures high alignment, eliminates the need for camera trajectory annotations, and thus can be readily applied to any in-the-wild video to generate image-to-video (I2V) training pairs. Furthermore, we introduce Anchor-ControlNet, a lightweight conditioning module that integrates anchor video guidance in visible regions to pretrained VDMs, with less than 1% of backbone model parameters. By combining the proposed anchor video data and ControlNet module, EPiC achieves efficient training with substantially fewer parameters, training steps, and less data, without requiring modifications to the diffusion model backbone typically needed to mitigate rendering misalignments. Although being trained on masking-based anchor videos, our method generalizes robustly to anchor videos made with point clouds during inference, enabling precise 3D-informed camera control. EPiC achieves SOTA performance on RealEstate10K and MiraData for I2V camera control task, demonstrating precise and robust camera control ability both quantitatively and qualitatively. Notably, EPiC also exhibits strong zero-shot generalization to video-to-video scenarios.
PDF92May 29, 2025