Deformación como historia: Generación de video controlada por cámara y generalizable a partir de un único video de entrenamiento

Resumen

La generación de video controlada por cámara ha logrado avances sustanciales, permitiendo que los videos generados sigan trayectorias de punto de vista prescritas. Sin embargo, los métodos existentes suelen aprender condicionamientos específicos de la cámara mediante codificadores de cámara, ramas de control o modificaciones en la codificación posicional y de atención, lo que a menudo requiere un posentrenamiento en videos anotados con cámara a gran escala. Las alternativas sin entrenamiento evitan dicho posentrenamiento, pero con frecuencia trasladan el costo a una optimización en tiempo de prueba o a una guía adicional durante la eliminación de ruido. Proponemos Warp-as-History, una interfaz simple que convierte las deformaciones inducidas por la cámara en una pseudo-historia deformada por cámara, con alineación posicional del fotograma objetivo y selección de tokens visibles. Dada una trayectoria de cámara objetivo, construimos una pseudo-historia deformada por cámara a partir de observaciones pasadas y la alimentamos a través de la vía de historia visual del modelo. De manera crucial, alineamos su codificación posicional con los fotogramas objetivo que se están denoising y eliminamos los tokens de la historia deformada que carecen de observaciones fuente válidas. Sin ningún entrenamiento, modificación arquitectónica ni optimización en tiempo de prueba, esta interfaz revela una capacidad no trivial de cero disparos de un modelo de generación de video congelado para seguir trayectorias de cámara. Además, un ajuste fino LoRA ligero fuera de línea, realizado en un solo video anotado con cámara, mejora aún más esta capacidad y se generaliza a videos no vistos, mejorando la adherencia a la cámara, la calidad visual y las dinámicas de movimiento sin necesidad de optimización en tiempo de prueba ni adaptación al video objetivo. Experimentos exhaustivos en diversos conjuntos de datos confirman la efectividad de nuestro método.

English

Camera-controlled video generation has made substantial progress, enabling generated videos to follow prescribed viewpoint trajectories. However, existing methods usually learn camera-specific conditioning through camera encoders, control branches, or attention and positional-encoding modifications, which often require post-training on large-scale camera-annotated videos. Training-free alternatives avoid such post-training, but often shift the cost to test-time optimization or extra denoising-time guidance. We propose Warp-as-History, a simple interface that turns camera-induced warps into camera-warped pseudo-history with target-frame positional alignment and visible-token selection. Given a target camera trajectory, we construct camera-warped pseudo-history from past observations and feed it through the model's visual-history pathway. Crucially, we align its positional encoding with the target frames being denoised and remove warped-history tokens without valid source observations. Without any training, architectural modification, or test-time optimization, this interface reveals a non-trivial zero-shot capability of a frozen video generation model to follow camera trajectories. Moreover, lightweight offline LoRA finetuning on only one camera-annotated video further improves this capability and generalizes to unseen videos, improving camera adherence, visual quality, and motion dynamics without test-time optimization or target-video adaptation. Extensive experiments on diverse datasets confirm the effectiveness of our method.