Warp-as-History: Обобщаемая генерация видео с управлением камерой на основе одного обучающего видео

Аннотация

Контролируемое камерой создание видео достигло значительного прогресса, позволяя генерируемым видео следовать заданным траекториям обзора. Однако существующие методы обычно обучают условную привязку к камере с помощью кодеров камеры, управляющих ветвей или модификаций внимания и позиционного кодирования, что часто требует дообучения на крупномасштабных видео с аннотированными камерами. Альтернативы, не требующие обучения, избегают такого дообучения, но часто переносят затраты на оптимизацию во время тестирования или дополнительное сопровождение на этапе шумоподавления. Мы предлагаем Warp-as-History — простой интерфейс, который преобразует индуцированные камерой деформации в деформированные псевдоистории с выравниванием позиций целевых кадров и выбором видимых токенов. Учитывая заданную траекторию камеры, мы строим деформированные камерой псевдоистории из прошлых наблюдений и подаем их через путь визуальной истории модели. Важно, что мы выравниваем их позиционное кодирование с целевыми кадрами, подвергающимися шумоподавлению, и удаляем токены деформированной истории без допустимых исходных наблюдений. Без какого-либо обучения, архитектурных модификаций или оптимизации во время тестирования этот интерфейс демонстрирует нетривиальную способность нулевого выстрела замороженной модели генерации видео следовать траекториям камеры. Более того, легковесное автономное дообучение LoRA всего на одном видео с аннотированной камерой дополнительно улучшает эту способность и обобщается на невиданные видео, улучшая соответствие камере, визуальное качество и динамику движения без оптимизации во время тестирования или адаптации к целевому видео. Обширные эксперименты на различных наборах данных подтверждают эффективность нашего метода.

English

Camera-controlled video generation has made substantial progress, enabling generated videos to follow prescribed viewpoint trajectories. However, existing methods usually learn camera-specific conditioning through camera encoders, control branches, or attention and positional-encoding modifications, which often require post-training on large-scale camera-annotated videos. Training-free alternatives avoid such post-training, but often shift the cost to test-time optimization or extra denoising-time guidance. We propose Warp-as-History, a simple interface that turns camera-induced warps into camera-warped pseudo-history with target-frame positional alignment and visible-token selection. Given a target camera trajectory, we construct camera-warped pseudo-history from past observations and feed it through the model's visual-history pathway. Crucially, we align its positional encoding with the target frames being denoised and remove warped-history tokens without valid source observations. Without any training, architectural modification, or test-time optimization, this interface reveals a non-trivial zero-shot capability of a frozen video generation model to follow camera trajectories. Moreover, lightweight offline LoRA finetuning on only one camera-annotated video further improves this capability and generalizes to unseen videos, improving camera adherence, visual quality, and motion dynamics without test-time optimization or target-video adaptation. Extensive experiments on diverse datasets confirm the effectiveness of our method.