MVTrack4Gen: Многовидовое отслеживание точек в качестве геометрической супервизии для генерации 4D-видео

Аннотация

Синтезирование видео с нового ракурса из монокулярного эталонного видео вдоль целевой траектории камеры требует как геометрической согласованности, так и верности движения по отношению к эталонному видео. Существующие методы, основанные на явных 3D-представлениях, ограничены точностью готовых модулей реконструкции, которые часто дают неточную геометрию для динамических объектов в монокулярных видео. В отличие от этого, методы, основанные только на условиях камеры, могут достигать высокого визуального качества, но часто испытывают трудности с сохранением геометрической и кинематической согласованности. В данной работе мы представляем MVTrack4Gen (многовидовое отслеживание точек для генерации с нового ракурса) — обучающую структуру, учитывающую движение, которая использует многовидовое отслеживание точек в качестве дополнительного сигнала для контроля геометрии и движения в диффузионных моделях видео с нового ракурса, основанных только на условиях камеры. Наш ключевой вывод заключается в том, что определенные слои внимания кодируют сильные подсказки соответствия, где признаки запроса обращаются к ключевым признакам в геометрически соответствующих локациях в разных ракурсах и во времени, и рассогласование этих соответствий приводит к несоответствию движения. Основываясь на этом наблюдении, мы направляем эти признаки во вспомогательную головку многовидового отслеживания и совместно обучаем диффузионную модель с целью отслеживания точек. Явно усиливая эти чувствительные к движению соответствия, MVTrack4Gen улучшает существующие модели, позволяя им лучше следовать движению в эталонном ракурсе и поддерживать межракурсную геометрическую согласованность. На различных эталонах наш метод достигает передовой геометрической согласованности и конкурентоспособной точности камеры.

English

Synthesizing a novel-view video from a monocular reference video along a target camera trajectory requires both geometric consistency and motion fidelity with respect to the reference video. Existing methods based on explicit 3D representations are limited by the accuracy of off-the-shelf reconstruction modules, which often produce inaccurate geometry for dynamic objects in monocular videos. In contrast, camera-conditioning-only methods can achieve high visual quality but often struggle to preserve geometric and motion consistency. In this work, we introduce MVTrack4Gen (Multi-View point Tracking for Novel-View Generation), a motion-aware training framework that leverages multi-view point tracking as an additional geometric and motion supervision signal for camera-conditioning-only novel-view video diffusion models. Our key finding is that specific attention layers encode strong correspondence cues, where query features attend to key features at geometrically corresponding locations across views and over time, and the misalignment of these correspondences causes motion inconsistency. Based on this observation, we route these features into an auxiliary multi-view tracking head and jointly train the diffusion model with a point-tracking objective. By explicitly strengthening these motion-aware correspondences, MVTrack4Gen improves existing models to better follow the motion in the reference view and maintain cross-view geometric consistency. Across diverse benchmarks, our method achieves state-of-the-art geometric consistency and competitive camera accuracy.