Warp-as-History: Geração de Vídeo Controlada por Câmera Generalizável a partir de um Único Vídeo de Treinamento

Resumo

O controle de geração de vídeo por câmera tem avançado consideravelmente, permitindo que vídeos gerados sigam trajetórias de ponto de vista prescritas. No entanto, métodos existentes geralmente aprendem condicionamento específico de câmera por meio de codificadores de câmera, ramos de controle ou modificações na codificação posicional e de atenção, que frequentemente exigem pós-treinamento em vídeos anotados com câmera em larga escala. Alternativas livres de treinamento evitam esse pós-treinamento, mas frequentemente transferem o custo para otimização em tempo de teste ou orientação extra em tempo de remoção de ruído. Propomos o Warp-as-History, uma interface simples que transforma deformações induzidas por câmera em um pseudo-histórico deformado por câmera com alinhamento posicional do quadro alvo e seleção de tokens visíveis. Dada uma trajetória de câmera alvo, construímos um pseudo-histórico deformado por câmera a partir de observações passadas e o alimentamos pelo caminho de histórico visual do modelo. Crucialmente, alinhamos sua codificação posicional com os quadros alvo sendo removidos de ruído e removemos tokens de histórico deformado sem observações fonte válidas. Sem qualquer treinamento, modificação arquitetural ou otimização em tempo de teste, essa interface revela uma capacidade zero-shot não trivial de um modelo de geração de vídeo congelado para seguir trajetórias de câmera. Além disso, o ajuste fino leve offline via LoRA em apenas um vídeo anotado com câmera melhora ainda mais essa capacidade e generaliza para vídeos não vistos, aprimorando a aderência à câmera, a qualidade visual e a dinâmica de movimento, sem otimização em tempo de teste ou adaptação ao vídeo alvo. Experimentos extensivos em diversos conjuntos de dados confirmam a eficácia do nosso método.

English

Camera-controlled video generation has made substantial progress, enabling generated videos to follow prescribed viewpoint trajectories. However, existing methods usually learn camera-specific conditioning through camera encoders, control branches, or attention and positional-encoding modifications, which often require post-training on large-scale camera-annotated videos. Training-free alternatives avoid such post-training, but often shift the cost to test-time optimization or extra denoising-time guidance. We propose Warp-as-History, a simple interface that turns camera-induced warps into camera-warped pseudo-history with target-frame positional alignment and visible-token selection. Given a target camera trajectory, we construct camera-warped pseudo-history from past observations and feed it through the model's visual-history pathway. Crucially, we align its positional encoding with the target frames being denoised and remove warped-history tokens without valid source observations. Without any training, architectural modification, or test-time optimization, this interface reveals a non-trivial zero-shot capability of a frozen video generation model to follow camera trajectories. Moreover, lightweight offline LoRA finetuning on only one camera-annotated video further improves this capability and generalizes to unseen videos, improving camera adherence, visual quality, and motion dynamics without test-time optimization or target-video adaptation. Extensive experiments on diverse datasets confirm the effectiveness of our method.