EPiC: Эффективное обучение управлению видеокамерой с точным наведением на опорные точки видео
EPiC: Efficient Video Camera Control Learning with Precise Anchor-Video Guidance
May 28, 2025
Авторы: Zun Wang, Jaemin Cho, Jialu Li, Han Lin, Jaehong Yoon, Yue Zhang, Mohit Bansal
cs.AI
Аннотация
Современные подходы к управлению 3D-камерой в моделях диффузии видео (VDMs) часто создают опорные видео для направления диффузионных моделей в качестве структурированного априори, рендеря их из оцененных облаков точек, следующих аннотированным траекториям камеры. Однако ошибки, присущие оценке облаков точек, часто приводят к неточным опорным видео. Более того, требование обширных аннотаций траекторий камеры дополнительно увеличивает затраты ресурсов. Чтобы устранить эти ограничения, мы представляем EPiC — эффективную и точную структуру обучения управлению камерой, которая автоматически создает высококачественные опорные видео без дорогостоящих аннотаций траекторий камеры. Конкретно, мы создаем высокоточные опорные видео для обучения, маскируя исходные видео на основе видимости первого кадра. Этот подход обеспечивает высокую согласованность, устраняет необходимость в аннотациях траекторий камеры и, таким образом, может быть легко применен к любому видео "в дикой природе" для создания пар обучения "изображение-в-видео" (I2V). Кроме того, мы представляем Anchor-ControlNet — легковесный модуль кондиционирования, который интегрирует руководство опорным видео в видимых областях в предобученные VDMs, используя менее 1% параметров базовой модели. Комбинируя предложенные данные опорного видео и модуль ControlNet, EPiC достигает эффективного обучения с существенно меньшим количеством параметров, шагов обучения и данных, без необходимости модификации базовой модели диффузии, которая обычно требуется для устранения несоответствий рендеринга. Хотя обучение проводится на опорных видео, созданных с помощью маскирования, наш метод надежно обобщается на опорные видео, созданные с использованием облаков точек во время вывода, обеспечивая точное управление камерой с учетом 3D. EPiC демонстрирует наилучшие результаты на RealEstate10K и MiraData для задачи управления камерой I2V, показывая точное и надежное управление камерой как количественно, так и качественно. Примечательно, что EPiC также демонстрирует сильное обобщение в сценариях "видео-в-видео" с нулевым обучением.
English
Recent approaches on 3D camera control in video diffusion models (VDMs) often
create anchor videos to guide diffusion models as a structured prior by
rendering from estimated point clouds following annotated camera trajectories.
However, errors inherent in point cloud estimation often lead to inaccurate
anchor videos. Moreover, the requirement for extensive camera trajectory
annotations further increases resource demands. To address these limitations,
we introduce EPiC, an efficient and precise camera control learning framework
that automatically constructs high-quality anchor videos without expensive
camera trajectory annotations. Concretely, we create highly precise anchor
videos for training by masking source videos based on first-frame visibility.
This approach ensures high alignment, eliminates the need for camera trajectory
annotations, and thus can be readily applied to any in-the-wild video to
generate image-to-video (I2V) training pairs. Furthermore, we introduce
Anchor-ControlNet, a lightweight conditioning module that integrates anchor
video guidance in visible regions to pretrained VDMs, with less than 1% of
backbone model parameters. By combining the proposed anchor video data and
ControlNet module, EPiC achieves efficient training with substantially fewer
parameters, training steps, and less data, without requiring modifications to
the diffusion model backbone typically needed to mitigate rendering
misalignments. Although being trained on masking-based anchor videos, our
method generalizes robustly to anchor videos made with point clouds during
inference, enabling precise 3D-informed camera control. EPiC achieves SOTA
performance on RealEstate10K and MiraData for I2V camera control task,
demonstrating precise and robust camera control ability both quantitatively and
qualitatively. Notably, EPiC also exhibits strong zero-shot generalization to
video-to-video scenarios.Summary
AI-Generated Summary