Warp-as-History : Génération vidéo contrôlée par caméra généralisable à partir d'une seule vidéo d'entraînement

Résumé

La génération vidéo contrôlée par caméra a réalisé des progrès substantiels, permettant aux vidéos générées de suivre des trajectoires de point de vue prescrites. Cependant, les méthodes existantes apprennent généralement un conditionnement spécifique à la caméra via des encodeurs de caméra, des branches de contrôle, ou des modifications de l'attention et du codage positionnel, ce qui nécessite souvent un post-entraînement sur des vidéos annotées de caméra à grande échelle. Les alternatives sans entraînement évitent un tel post-entraînement, mais reportent souvent le coût vers une optimisation en phase de test ou un guidage supplémentaire en phase de débruitage. Nous proposons Warp-as-History, une interface simple qui transforme les déformations induites par la caméra en pseudo-historique déformé par caméra avec un alignement positionnel de l'image cible et une sélection des jetons visibles. Étant donné une trajectoire de caméra cible, nous construisons un pseudo-historique déformé par caméra à partir des observations passées et le transmettons via le chemin d'historique visuel du modèle. De manière cruciale, nous alignons son codage positionnel avec les images cibles en cours de débruitage et supprimons les jetons d'historique déformé sans observations sources valides. Sans aucun entraînement, modification architecturale ou optimisation en phase de test, cette interface révèle une capacité non triviale de zéro-shot d'un modèle de génération vidéo figé à suivre des trajectoires de caméra. De plus, un ajustement fin LoRA léger hors ligne sur une seule vidéo annotée de caméra améliore encore cette capacité et se généralise à des vidéos non vues, renforçant l'adhérence à la caméra, la qualité visuelle et la dynamique de mouvement sans optimisation en phase de test ni adaptation à la vidéo cible. Des expériences approfondies sur divers ensembles de données confirment l'efficacité de notre méthode.

English

Camera-controlled video generation has made substantial progress, enabling generated videos to follow prescribed viewpoint trajectories. However, existing methods usually learn camera-specific conditioning through camera encoders, control branches, or attention and positional-encoding modifications, which often require post-training on large-scale camera-annotated videos. Training-free alternatives avoid such post-training, but often shift the cost to test-time optimization or extra denoising-time guidance. We propose Warp-as-History, a simple interface that turns camera-induced warps into camera-warped pseudo-history with target-frame positional alignment and visible-token selection. Given a target camera trajectory, we construct camera-warped pseudo-history from past observations and feed it through the model's visual-history pathway. Crucially, we align its positional encoding with the target frames being denoised and remove warped-history tokens without valid source observations. Without any training, architectural modification, or test-time optimization, this interface reveals a non-trivial zero-shot capability of a frozen video generation model to follow camera trajectories. Moreover, lightweight offline LoRA finetuning on only one camera-annotated video further improves this capability and generalizes to unseen videos, improving camera adherence, visual quality, and motion dynamics without test-time optimization or target-video adaptation. Extensive experiments on diverse datasets confirm the effectiveness of our method.