Geo-Align: Alineación de generación de video mediante recompensa de geometría métrica

Resumen

La generación de video controlada por cámara ha logrado avances notables en los últimos años. Sin embargo, los métodos existentes de re-renderización de video a video se basan principalmente en el Ajuste Fino Supervisado utilizando conjuntos de datos sintéticos. En la actualidad, existe una escasez extrema de datos de video del mundo real sincronizados y multivista. En consecuencia, el paradigma predominante suele presentar una generalización limitada al procesar videos del mundo real fuera de distribución, donde los modelos tienen dificultades para adherirse con precisión a las escalas físicas y las trayectorias de cámara. Para cerrar esta brecha, proponemos Geo-Align, el primer marco de Aprendizaje por Refuerzo diseñado específicamente para la re-renderización de video controlada por cámara. Construido sobre un modelo preentrenado, optimizamos el modelo mediante un mecanismo de recompensa perceptual consciente de la escala. Específicamente, introducimos un estimador 3D métrico para extraer trayectorias de cámara precisas a partir de videos generados, penalizando explícitamente las desviaciones en rotación y traslación. Además, diseñamos meticulosamente una estrategia de tubería de datos basada en videos condicionantes del mundo real y trayectorias de cámara objetivo derivadas de datos sintéticos, eliminando la dependencia de datos emparejados. Experimentos exhaustivos demuestran que Geo-Align supera consistentemente a las líneas base de aprendizaje supervisado existentes tanto en controlabilidad precisa de la cámara como en fidelidad visual, lo que indica la efectividad de nuestro método.

English

Camera-controlled video generation has achieved remarkable progress in recent years. However, existing video-to-video re-rendering methods primarily rely on Supervised Fine-Tuning using synthetic datasets. At present, there is an extreme scarcity of synchronized, multi-view real-world video data. Consequently, the prevailing paradigm often exhibits limited generalization when processing out-of-distribution real-world videos, with models struggling to accurately adhere to physical scales and camera trajectories. To bridge this gap, we propose Geo-Align, the first Reinforcement Learning framework specifically designed for camera-controlled video re-rendering. Built upon a pretrained model, we optimize the model through a scale-aware perceptual reward mechanism. Specifically, we introduce a metric 3D estimator to extract precise camera trajectories from generated videos, explicitly penalizing deviations in rotation and translation. Furthermore, we meticulously designed a data pipeline strategy based on real-world conditioning videos and target camera trajectories derived from synthetic data, eliminating the reliance on paired data. Extensive experiments demonstrate that Geo-Align consistently outperforms existing supervised learning baselines in both precise camera controllability and visual fidelity, indicating the effectiveness of our method.