ReCamMaster: Kameragesteuertes generatives Rendering aus einem einzelnen VideoReCamMaster: Camera-Controlled Generative Rendering from A Single Video
Die Kamerasteuerung wurde in text- oder bildbedingten Videogenerierungsaufgaben aktiv erforscht. Die Veränderung von Kameratrajektorien eines gegebenen Videos bleibt jedoch weitgehend unerforscht, obwohl sie im Bereich der Videoproduktion von großer Bedeutung ist. Dies ist aufgrund der zusätzlichen Anforderungen, die Erscheinung über mehrere Frames hinweg beizubehalten und die dynamische Synchronisation aufrechtzuerhalten, nicht trivial. Um dies zu bewältigen, präsentieren wir ReCamMaster, ein kameragesteuertes generatives Video-Rendering-Framework, das die dynamische Szene eines Eingabevideos in neuen Kameratrajektorien reproduziert. Die zentrale Innovation besteht darin, die generativen Fähigkeiten vortrainierter Text-zu-Video-Modelle durch einen einfachen, aber leistungsstarken Video-Konditionierungsmechanismus zu nutzen – eine Fähigkeit, die in der aktuellen Forschung oft übersehen wird. Um den Mangel an qualitativ hochwertigen Trainingsdaten zu überwinden, erstellen wir mit Unreal Engine 5 einen umfassenden, multi-kamera-synchronisierten Videodatensatz, der sorgfältig kuratiert ist, um realen Filmcharakteristiken zu entsprechen und vielfältige Szenen und Kamerabewegungen abzudecken. Dies hilft dem Modell, sich auf Videos in der freien Wildbahn zu verallgemeinern. Schließlich verbessern wir die Robustheit gegenüber diversen Eingaben durch eine sorgfältig gestaltete Trainingsstrategie. Umfangreiche Experimente zeigen, dass unsere Methode bestehende state-of-the-art Ansätze und starke Baselines deutlich übertrifft. Unsere Methode findet auch vielversprechende Anwendungen in der Videostabilisierung, Super-Resolution und Outpainting. Projektseite: https://jianhongbai.github.io/ReCamMaster/