ReDirector: Creación de Retomas de Video de Cualquier Duración con Codificación de Cámara Rotatoria
ReDirector: Creating Any-Length Video Retakes with Rotary Camera Encoding
November 25, 2025
Autores: Byeongjun Park, Byung-Hoon Kim, Hyungjin Chung, Jong Chul Ye
cs.AI
Resumen
Presentamos ReDirector, un novedoso método de generación de retomas de vídeo controlado por cámara para vídeos de longitud variable capturados dinámicamente. En particular, rectificamos un uso indebido común de RoPE en trabajos anteriores alineando las posiciones espacio-temporales del vídeo de entrada y la retoma objetivo. Además, introducimos Rotary Camera Encoding (RoCE), un desplazamiento de fase de RoPE condicionado por la cámara que captura e integra las relaciones multi-vista dentro y entre los vídeos de entrada y objetivo. Al integrar las condiciones de la cámara en RoPE, nuestro método se generaliza a trayectorias de cámara y longitudes de vídeo fuera de distribución, logrando una mejor localización de objetos dinámicos y preservación del fondo estático. Experimentos exhaustivos demuestran además mejoras significativas en la capacidad de control de la cámara, la consistencia geométrica y la calidad del vídeo en diversas trayectorias y longitudes.
English
We present ReDirector, a novel camera-controlled video retake generation method for dynamically captured variable-length videos. In particular, we rectify a common misuse of RoPE in previous works by aligning the spatiotemporal positions of the input video and the target retake. Moreover, we introduce Rotary Camera Encoding (RoCE), a camera-conditioned RoPE phase shift that captures and integrates multi-view relationships within and across the input and target videos. By integrating camera conditions into RoPE, our method generalizes to out-of-distribution camera trajectories and video lengths, yielding improved dynamic object localization and static background preservation. Extensive experiments further demonstrate significant improvements in camera controllability, geometric consistency, and video quality across various trajectories and lengths.