TrajectoryCrafter: Перенаправление траектории камеры для монохромных видео с использованием диффузионных моделей
TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models
March 7, 2025
Авторы: Mark YU, Wenbo Hu, Jinbo Xing, Ying Shan
cs.AI
Аннотация
Мы представляем TrajectoryCrafter — новый подход к перенаправлению траекторий камеры для моноскопических видео. Разделяя детерминированные преобразования вида и стохастическую генерацию контента, наш метод обеспечивает точный контроль над заданными пользователем траекториями камеры. Мы предлагаем новую двухпоточную условную модель диффузии видео, которая одновременно интегрирует рендеры облака точек и исходные видео в качестве условий, гарантируя точные преобразования вида и согласованную генерацию 4D-контента. Вместо использования редких многовидовых видео мы создаем гибридный обучающий набор данных, объединяющий масштабные моноскопические видео со статическими многовидовыми наборами данных, благодаря нашей инновационной стратегии двойной репроекции, что значительно улучшает обобщение для разнообразных сцен. Обширные оценки на многовидовых и крупномасштабных моноскопических видео демонстрируют превосходную производительность нашего метода.
English
We present TrajectoryCrafter, a novel approach to redirect camera
trajectories for monocular videos. By disentangling deterministic view
transformations from stochastic content generation, our method achieves precise
control over user-specified camera trajectories. We propose a novel dual-stream
conditional video diffusion model that concurrently integrates point cloud
renders and source videos as conditions, ensuring accurate view transformations
and coherent 4D content generation. Instead of leveraging scarce multi-view
videos, we curate a hybrid training dataset combining web-scale monocular
videos with static multi-view datasets, by our innovative double-reprojection
strategy, significantly fostering robust generalization across diverse scenes.
Extensive evaluations on multi-view and large-scale monocular videos
demonstrate the superior performance of our method.Summary
AI-Generated Summary