ChatPaper.aiChatPaper

ReDirector: Создание видеоповторов любой продолжительности с помощью роторного кодирования камеры

ReDirector: Creating Any-Length Video Retakes with Rotary Camera Encoding

November 25, 2025
Авторы: Byeongjun Park, Byung-Hoon Kim, Hyungjin Chung, Jong Chul Ye
cs.AI

Аннотация

Мы представляем ReDirector — новый метод генерации видеоповторов с управлением камерой для динамически снимаемых видео переменной длины. В частности, мы исправляем распространённую ошибку в использовании RoPE (Rotary Position Embedding) в предыдущих работах, выравнивая пространственно-временные позиции входного видео и целевого повтора. Кроме того, мы представляем Rotary Camera Encoding (RoCE) — фазовый сдвиг RoPE, обусловленный параметрами камеры, который фиксирует и интегрирует взаимосвязи между множественными ракурсами внутри и между входным и целевым видео. Благодаря интеграции параметров камеры в RoPE наш метод обобщается на траектории камеры и длины видео за пределами распределения обучающих данных, обеспечивая улучшенную локализацию динамических объектов и сохранение статического фона. Многочисленные эксперименты дополнительно демонстрируют значительное улучшение управляемости камерой, геометрической согласованности и качества видео для различных траекторий и длин.
English
We present ReDirector, a novel camera-controlled video retake generation method for dynamically captured variable-length videos. In particular, we rectify a common misuse of RoPE in previous works by aligning the spatiotemporal positions of the input video and the target retake. Moreover, we introduce Rotary Camera Encoding (RoCE), a camera-conditioned RoPE phase shift that captures and integrates multi-view relationships within and across the input and target videos. By integrating camera conditions into RoPE, our method generalizes to out-of-distribution camera trajectories and video lengths, yielding improved dynamic object localization and static background preservation. Extensive experiments further demonstrate significant improvements in camera controllability, geometric consistency, and video quality across various trajectories and lengths.
PDF112December 1, 2025