Geo-Align: Согласование генерации видео с помощью вознаграждения на основе метрической геометрии

Аннотация

Управляемая камерой генерация видео достигла значительного прогресса в последние годы. Однако существующие методы перерендеринга видео в видео в основном полагаются на контролируемую тонкую настройку с использованием синтетических наборов данных. В настоящее время наблюдается крайний дефицит синхронизированных многовидовых видеоданных реального мира. Вследствие этого преобладающая парадигма часто демонстрирует ограниченную обобщающую способность при обработке видеоданных реального мира, выходящих за пределы распределения, при этом модели с трудом точно соблюдают физические масштабы и траектории камеры. Для преодоления этого разрыва мы предлагаем Geo-Align — первую структуру обучения с подкреплением, специально разработанную для управляемого камерой перерендеринга видео. Основываясь на предварительно обученной модели, мы оптимизируем модель с помощью механизма перцептивного вознаграждения, учитывающего масштаб. В частности, мы вводим метрический 3D-оценщик для извлечения точных траекторий камеры из сгенерированных видео, явно штрафуя отклонения по вращению и перемещению. Кроме того, мы тщательно разработали стратегию конвейера данных, основанную на условиях видео реального мира и целевых траекториях камеры, полученных из синтетических данных, что устраняет зависимость от парных данных. Обширные эксперименты показывают, что Geo-Align последовательно превосходит существующие базовые модели обучения с учителем как по точности управления камерой, так и по визуальной достоверности, что указывает на эффективность нашего метода.

English

Camera-controlled video generation has achieved remarkable progress in recent years. However, existing video-to-video re-rendering methods primarily rely on Supervised Fine-Tuning using synthetic datasets. At present, there is an extreme scarcity of synchronized, multi-view real-world video data. Consequently, the prevailing paradigm often exhibits limited generalization when processing out-of-distribution real-world videos, with models struggling to accurately adhere to physical scales and camera trajectories. To bridge this gap, we propose Geo-Align, the first Reinforcement Learning framework specifically designed for camera-controlled video re-rendering. Built upon a pretrained model, we optimize the model through a scale-aware perceptual reward mechanism. Specifically, we introduce a metric 3D estimator to extract precise camera trajectories from generated videos, explicitly penalizing deviations in rotation and translation. Furthermore, we meticulously designed a data pipeline strategy based on real-world conditioning videos and target camera trajectories derived from synthetic data, eliminating the reliance on paired data. Extensive experiments demonstrate that Geo-Align consistently outperforms existing supervised learning baselines in both precise camera controllability and visual fidelity, indicating the effectiveness of our method.