Warp-as-History: Generalisierbare kameragesteuerte Videogenerierung aus einem einzelnen Trainingsvideo

Zusammenfassung

Die kameragesteuerte Videogenerierung hat erhebliche Fortschritte gemacht und ermöglicht es, generierte Videos vorgegebenen Kameratrajektorien folgen zu lassen. Bestehende Methoden lernen jedoch meist kamerabedingte Konditionierungen durch Kameracodierer, Kontrollzweige oder Modifikationen von Aufmerksamkeit und Positionscodierung, die oft ein nachträgliches Training auf kameramarkierten Videos in großem Maßstab erfordern. Trainingsfreie Alternativen vermeiden ein solches nachträgliches Training, verlagern den Aufwand jedoch oft auf eine Optimierung zur Testzeit oder zusätzliche Führung während der Entrauschung. Wir schlagen Warp-as-History vor, eine einfache Schnittstelle, die kamerainduzierte Verzerrungen in kamerabedingte Pseudo-Historie mit Zielbild-Positionsausrichtung und Auswahl sichtbarer Token umwandelt. Bei einer gegebenen Ziel-Kameratrajektorie konstruieren wir aus vergangenen Beobachtungen eine kamerabedingte Pseudo-Historie und speisen diese über den Pfad der visuellen Historie des Modells ein. Entscheidend ist, dass wir deren Positionscodierung auf die zu entrauschenden Zielbilder ausrichten und verzerrte Historien-Token ohne gültige Quellbeobachtungen entfernen. Ohne jegliches Training, architektonische Modifikation oder Optimierung zur Testzeit offenbart diese Schnittstelle eine nicht-triviale Zero-Shot-Fähigkeit eines eingefrorenen Videogenerierungsmodells, Kameratrajektorien zu folgen. Darüber hinaus verbessert ein leichtgewichtiges, offline durchgeführtes LoRA-Feintuning an nur einem kameramarkierten Video diese Fähigkeit weiter und verallgemeinert auf ungesehene Videos, wobei die Kamerabindung, die visuelle Qualität und die Bewegungsdynamik ohne Optimierung zur Testzeit oder Anpassung an das Zielvideo verbessert werden. Umfangreiche Experimente an verschiedenen Datensätzen bestätigen die Wirksamkeit unserer Methode.

English

Camera-controlled video generation has made substantial progress, enabling generated videos to follow prescribed viewpoint trajectories. However, existing methods usually learn camera-specific conditioning through camera encoders, control branches, or attention and positional-encoding modifications, which often require post-training on large-scale camera-annotated videos. Training-free alternatives avoid such post-training, but often shift the cost to test-time optimization or extra denoising-time guidance. We propose Warp-as-History, a simple interface that turns camera-induced warps into camera-warped pseudo-history with target-frame positional alignment and visible-token selection. Given a target camera trajectory, we construct camera-warped pseudo-history from past observations and feed it through the model's visual-history pathway. Crucially, we align its positional encoding with the target frames being denoised and remove warped-history tokens without valid source observations. Without any training, architectural modification, or test-time optimization, this interface reveals a non-trivial zero-shot capability of a frozen video generation model to follow camera trajectories. Moreover, lightweight offline LoRA finetuning on only one camera-annotated video further improves this capability and generalizes to unseen videos, improving camera adherence, visual quality, and motion dynamics without test-time optimization or target-video adaptation. Extensive experiments on diverse datasets confirm the effectiveness of our method.