ChatPaper.aiChatPaper

Бесконечная гомография как надежное условие для управления камерой при генерации видео

Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation

December 18, 2025
Авторы: Min-Jung Kim, Jeongho Kim, Hoiyeong Jin, Junha Hyung, Jaegul Choo
cs.AI

Аннотация

Последние достижения в области видео-диффузионных моделей стимулируют растущий интерес к генерации видео с новых ракурсов с управлением камерой для динамических сцен, что направлено на предоставление создателям возможностей кинематографического контроля камеры на этапе пост-продакшена. Ключевой проблемой в генерации видео с управлением камерой является обеспечение соответствия заданной позе камеры при сохранении согласованности видов и восстановлении загороженной геометрии на основе ограниченных наблюдений. Для решения этой задачи существующие методы либо обучают модель генерации видео, обусловленную траекторией, на наборе данных пар "траектория-видео", либо оценивают глубину из входного видео для его репроекции вдоль целевой траектории и генерации неспроецированных областей. Тем не менее, существующие методы сталкиваются с трудностями в генерации высококачественных видео, точно соответствующих позе камеры, по двум основным причинам: (1) подходы на основе репроекции сильно подвержены ошибкам, вызванным неточным оценением глубины; и (2) ограниченное разнообразие траекторий камеры в существующих наборах данных сужает возможности обученных моделей. Для преодоления этих ограничений мы представляем InfCam — свободный от оценки глубины фреймворк для видео-к-видео генерации с управлением камерой, обеспечивающий высокую точность соответствия позе. Фреймворк интегрирует два ключевых компонента: (1) бесконечное гомографическое преобразование, которое кодирует 3D-вращения камеры непосредственно в 2D-латентном пространстве видео-диффузионной модели. Условие на основе этой зашумленной ротационной информации позволяет предсказать остаточный параллаксовый член с помощью сквозного обучения для достижения высокой точности соответствия позе камеры; и (2) конвейер аугментации данных, преобразующий существующие синтетические многовидовые наборы данных в последовательности с разнообразными траекториями и фокусными расстояниями. Результаты экспериментов демонстрируют, что InfCam превосходит базовые методы по точности соответствия позе камеры и визуальному качеству, хорошо обобщаясь с синтетических на реальные данные. Ссылка на страницу проекта: https://emjay73.github.io/InfCam/
English
Recent progress in video diffusion models has spurred growing interest in camera-controlled novel-view video generation for dynamic scenes, aiming to provide creators with cinematic camera control capabilities in post-production. A key challenge in camera-controlled video generation is ensuring fidelity to the specified camera pose, while maintaining view consistency and reasoning about occluded geometry from limited observations. To address this, existing methods either train trajectory-conditioned video generation model on trajectory-video pair dataset, or estimate depth from the input video to reproject it along a target trajectory and generate the unprojected regions. Nevertheless, existing methods struggle to generate camera-pose-faithful, high-quality videos for two main reasons: (1) reprojection-based approaches are highly susceptible to errors caused by inaccurate depth estimation; and (2) the limited diversity of camera trajectories in existing datasets restricts learned models. To address these limitations, we present InfCam, a depth-free, camera-controlled video-to-video generation framework with high pose fidelity. The framework integrates two key components: (1) infinite homography warping, which encodes 3D camera rotations directly within the 2D latent space of a video diffusion model. Conditioning on this noise-free rotational information, the residual parallax term is predicted through end-to-end training to achieve high camera-pose fidelity; and (2) a data augmentation pipeline that transforms existing synthetic multiview datasets into sequences with diverse trajectories and focal lengths. Experimental results demonstrate that InfCam outperforms baseline methods in camera-pose accuracy and visual fidelity, generalizing well from synthetic to real-world data. Link to our project page:https://emjay73.github.io/InfCam/
PDF265December 24, 2025