VidPanos: Videos Panorámicos Generativos a partir de Videos de Barrido Casuales
VidPanos: Generative Panoramic Videos from Casual Panning Videos
October 17, 2024
Autores: Jingwei Ma, Erika Lu, Roni Paiss, Shiran Zada, Aleksander Holynski, Tali Dekel, Brian Curless, Michael Rubinstein, Forrester Cole
cs.AI
Resumen
La unión de imágenes panorámicas proporciona una vista unificada y de gran angular de una escena que se extiende más allá del campo de visión de la cámara. Unir fotogramas de un video panorámico en una fotografía panorámica es un problema bien entendido para escenas estáticas, pero cuando los objetos están en movimiento, una panorámica estática no puede capturar la escena. Presentamos un método para sintetizar un video panorámico a partir de un video panorámico capturado de manera casual, como si el video original hubiera sido capturado con una cámara de gran angular. Planteamos la síntesis de panoramas como un problema de relleno espacio-temporal, donde nuestro objetivo es crear un video panorámico completo de la misma duración que el video de entrada. La finalización consistente del volumen espacio-temporal requiere un fuerte y realista conocimiento previo sobre el contenido del video y el movimiento, para lo cual adaptamos modelos generativos de video. Sin embargo, como mostramos, los modelos generativos existentes no se extienden inmediatamente a la finalización de panoramas. En su lugar, aplicamos la generación de video como un componente de nuestro sistema de síntesis de panoramas, y demostramos cómo explotar las fortalezas de los modelos mientras minimizamos sus limitaciones. Nuestro sistema puede crear panoramas de video para una variedad de escenas en entornos naturales, incluyendo personas, vehículos y agua en movimiento, así como características de fondo estáticas.
English
Panoramic image stitching provides a unified, wide-angle view of a scene that
extends beyond the camera's field of view. Stitching frames of a panning video
into a panoramic photograph is a well-understood problem for stationary scenes,
but when objects are moving, a still panorama cannot capture the scene. We
present a method for synthesizing a panoramic video from a casually-captured
panning video, as if the original video were captured with a wide-angle camera.
We pose panorama synthesis as a space-time outpainting problem, where we aim to
create a full panoramic video of the same length as the input video. Consistent
completion of the space-time volume requires a powerful, realistic prior over
video content and motion, for which we adapt generative video models. Existing
generative models do not, however, immediately extend to panorama completion,
as we show. We instead apply video generation as a component of our panorama
synthesis system, and demonstrate how to exploit the strengths of the models
while minimizing their limitations. Our system can create video panoramas for a
range of in-the-wild scenes including people, vehicles, and flowing water, as
well as stationary background features.Summary
AI-Generated Summary