Geo-Align: Ausrichtung der Videoerzeugung mittels metrischer Geometriebelohnung

Zusammenfassung

Kameragesteuerte Videogenerierung hat in den letzten Jahren bemerkenswerte Fortschritte erzielt. Allerdings basieren bestehende Methoden zur Video-zu-Video-Neuberechnung hauptsächlich auf überwachtem Feintuning unter Verwendung synthetischer Datensätze. Derzeit herrscht ein extremer Mangel an synchronisierten Echtwelt-Videodaten mit mehreren Ansichten. Infolgedessen zeigt das vorherrschende Paradigma oft eine eingeschränkte Generalisierung bei der Verarbeitung von Echtweltvideos außerhalb der Verteilung, wobei Modelle Schwierigkeiten haben, physikalische Skalen und Kameratrajektorien genau einzuhalten. Um diese Lücke zu schließen, schlagen wir Geo-Align vor, das erste Reinforcement-Learning-Framework, das speziell für die kameragesteuerte Videoneuberechnung entwickelt wurde. Aufbauend auf einem vortrainierten Modell optimieren wir das Modell durch einen skalierungsbewussten wahrnehmungsbasierten Belohnungsmechanismus. Konkret führen wir einen metrischen 3D-Schätzer ein, um präzise Kameratrajektorien aus generierten Videos zu extrahieren, der explizit Abweichungen in Rotation und Translation bestraft. Darüber hinaus haben wir sorgfältig eine Datenpipelinestrategie entwickelt, die auf konditionierenden Echtweltvideos und aus synthetischen Daten abgeleiteten Zielkameratrajektorien basiert, wodurch die Abhängigkeit von gepaarten Daten entfällt. Umfangreiche Experimente zeigen, dass Geo-Align bestehende überwachte Lernbasislinien sowohl in der präzisen Kamerasteuerbarkeit als auch in der visuellen Wiedergabetreue konsequent übertrifft, was die Wirksamkeit unserer Methode belegt.

English

Camera-controlled video generation has achieved remarkable progress in recent years. However, existing video-to-video re-rendering methods primarily rely on Supervised Fine-Tuning using synthetic datasets. At present, there is an extreme scarcity of synchronized, multi-view real-world video data. Consequently, the prevailing paradigm often exhibits limited generalization when processing out-of-distribution real-world videos, with models struggling to accurately adhere to physical scales and camera trajectories. To bridge this gap, we propose Geo-Align, the first Reinforcement Learning framework specifically designed for camera-controlled video re-rendering. Built upon a pretrained model, we optimize the model through a scale-aware perceptual reward mechanism. Specifically, we introduce a metric 3D estimator to extract precise camera trajectories from generated videos, explicitly penalizing deviations in rotation and translation. Furthermore, we meticulously designed a data pipeline strategy based on real-world conditioning videos and target camera trajectories derived from synthetic data, eliminating the reliance on paired data. Extensive experiments demonstrate that Geo-Align consistently outperforms existing supervised learning baselines in both precise camera controllability and visual fidelity, indicating the effectiveness of our method.