Warp-as-History: generaliseerbare cameragestuurde videogeneratie uit één trainingsvideo

Samenvatting

Camera-gestuurde videogeneratie heeft aanzienlijke vooruitgang geboekt en maakt het mogelijk gegenereerde video's voorgeschreven camerapaden te laten volgen. Bestaande methoden leren echter meestal cameraspecifieke conditionering via camera-encoders, besturingstakken of aanpassingen in aandacht- en positiecodering, waarvoor vaak nabewerking op grootschalige, van camera-aantekeningen voorziene video's nodig is. Trainingsvrije alternatieven vermijden dergelijke nabewerking, maar verleggen de kosten vaak naar optimalisatie tijdens het testen of extra begeleiding tijdens het denoisingproces. Wij stellen Warp-as-History voor, een eenvoudige interface die door camera geïnduceerde warp-operaties omzet in camera-vervormde pseudo-geschiedenis met positionele uitlijning van het doelbeeld en selectie van zichtbare tokens. Gegeven een gewenst cameratraject construeer ik een camera-vervormde pseudo-geschiedenis op basis van eerdere waarnemingen en voed ik deze via het visuele-geschiedenispad van het model. Cruciaal is dat we de positiecodering ervan uitlijnen met de doelbeelden die worden gedenoised en tokens uit de vervormde geschiedenis verwijderen zonder geldige bronwaarnemingen. Zonder enige training, architectuurwijziging of optimalisatie tijdens het testen onthult deze interface een niet-triviale zero-shot-capaciteit van een bevroren videogeneratiemodel om camerapaden te volgen. Bovendien verbetert lichte offline LoRA-fijnafstemming op slechts één video met camera-aantekeningen deze capaciteit verder en generaliseert het naar niet-geziene video's, wat de camera-adherentie, visuele kwaliteit en bewegingsdynamiek verbetert zonder optimalisatie tijdens het testen of aanpassing aan de doelvideo. Uitgebreide experimenten op diverse datasets bevestigen de effectiviteit van onze methode.

English

Camera-controlled video generation has made substantial progress, enabling generated videos to follow prescribed viewpoint trajectories. However, existing methods usually learn camera-specific conditioning through camera encoders, control branches, or attention and positional-encoding modifications, which often require post-training on large-scale camera-annotated videos. Training-free alternatives avoid such post-training, but often shift the cost to test-time optimization or extra denoising-time guidance. We propose Warp-as-History, a simple interface that turns camera-induced warps into camera-warped pseudo-history with target-frame positional alignment and visible-token selection. Given a target camera trajectory, we construct camera-warped pseudo-history from past observations and feed it through the model's visual-history pathway. Crucially, we align its positional encoding with the target frames being denoised and remove warped-history tokens without valid source observations. Without any training, architectural modification, or test-time optimization, this interface reveals a non-trivial zero-shot capability of a frozen video generation model to follow camera trajectories. Moreover, lightweight offline LoRA finetuning on only one camera-annotated video further improves this capability and generalizes to unseen videos, improving camera adherence, visual quality, and motion dynamics without test-time optimization or target-video adaptation. Extensive experiments on diverse datasets confirm the effectiveness of our method.