Geo-Align : Alignement de la génération de vidéos via récompense de géométrie métrique

Résumé

La génération de vidéos contrôlée par caméra a connu des progrès remarquables ces dernières années. Cependant, les méthodes existantes de re-rendu vidéo-à-vidéo reposent principalement sur le fine-tuning supervisé utilisant des ensembles de données synthétiques. Actuellement, il existe une extrême rareté de données vidéo réelles synchronisées et multi-vues. Par conséquent, le paradigme dominant présente souvent une généralisation limitée lors du traitement de vidéos réelles hors distribution, les modèles peinant à respecter avec précision les échelles physiques et les trajectoires de caméra. Pour combler cette lacune, nous proposons Geo-Align, le premier cadre d'apprentissage par renforcement spécifiquement conçu pour le re-rendu vidéo contrôlé par caméra. Bâti sur un modèle pré-entraîné, nous optimisons le modèle via un mécanisme de récompense perceptuelle consciente de l'échelle. Plus précisément, nous introduisons un estimateur 3D métrique pour extraire des trajectoires de caméra précises à partir des vidéos générées, pénalisant explicitement les écarts en rotation et translation. De plus, nous avons méticuleusement conçu une stratégie de pipeline de données basée sur des vidéos de conditionnement réelles et des trajectoires de caméra cibles dérivées de données synthétiques, éliminant ainsi la dépendance aux données appariées. Des expériences approfondies montrent que Geo-Align surpasse systématiquement les lignes de base existantes d'apprentissage supervisé à la fois en termes de contrôlabilité précise de la caméra et de fidélité visuelle, indiquant l'efficacité de notre méthode.

English

Camera-controlled video generation has achieved remarkable progress in recent years. However, existing video-to-video re-rendering methods primarily rely on Supervised Fine-Tuning using synthetic datasets. At present, there is an extreme scarcity of synchronized, multi-view real-world video data. Consequently, the prevailing paradigm often exhibits limited generalization when processing out-of-distribution real-world videos, with models struggling to accurately adhere to physical scales and camera trajectories. To bridge this gap, we propose Geo-Align, the first Reinforcement Learning framework specifically designed for camera-controlled video re-rendering. Built upon a pretrained model, we optimize the model through a scale-aware perceptual reward mechanism. Specifically, we introduce a metric 3D estimator to extract precise camera trajectories from generated videos, explicitly penalizing deviations in rotation and translation. Furthermore, we meticulously designed a data pipeline strategy based on real-world conditioning videos and target camera trajectories derived from synthetic data, eliminating the reliance on paired data. Extensive experiments demonstrate that Geo-Align consistently outperforms existing supervised learning baselines in both precise camera controllability and visual fidelity, indicating the effectiveness of our method.