VidPanos: Videos Panorámicos Generativos a partir de Videos de Barrido Casuales

Resumen

La unión de imágenes panorámicas proporciona una vista unificada y de gran angular de una escena que se extiende más allá del campo de visión de la cámara. Unir fotogramas de un video panorámico en una fotografía panorámica es un problema bien entendido para escenas estáticas, pero cuando los objetos están en movimiento, una panorámica estática no puede capturar la escena. Presentamos un método para sintetizar un video panorámico a partir de un video panorámico capturado de manera casual, como si el video original hubiera sido capturado con una cámara de gran angular. Planteamos la síntesis de panoramas como un problema de relleno espacio-temporal, donde nuestro objetivo es crear un video panorámico completo de la misma duración que el video de entrada. La finalización consistente del volumen espacio-temporal requiere un fuerte y realista conocimiento previo sobre el contenido del video y el movimiento, para lo cual adaptamos modelos generativos de video. Sin embargo, como mostramos, los modelos generativos existentes no se extienden inmediatamente a la finalización de panoramas. En su lugar, aplicamos la generación de video como un componente de nuestro sistema de síntesis de panoramas, y demostramos cómo explotar las fortalezas de los modelos mientras minimizamos sus limitaciones. Nuestro sistema puede crear panoramas de video para una variedad de escenas en entornos naturales, incluyendo personas, vehículos y agua en movimiento, así como características de fondo estáticas.

English

Panoramic image stitching provides a unified, wide-angle view of a scene that extends beyond the camera's field of view. Stitching frames of a panning video into a panoramic photograph is a well-understood problem for stationary scenes, but when objects are moving, a still panorama cannot capture the scene. We present a method for synthesizing a panoramic video from a casually-captured panning video, as if the original video were captured with a wide-angle camera. We pose panorama synthesis as a space-time outpainting problem, where we aim to create a full panoramic video of the same length as the input video. Consistent completion of the space-time volume requires a powerful, realistic prior over video content and motion, for which we adapt generative video models. Existing generative models do not, however, immediately extend to panorama completion, as we show. We instead apply video generation as a component of our panorama synthesis system, and demonstrate how to exploit the strengths of the models while minimizing their limitations. Our system can create video panoramas for a range of in-the-wild scenes including people, vehicles, and flowing water, as well as stationary background features.

VidPanos: Videos Panorámicos Generativos a partir de Videos de Barrido Casuales

VidPanos: Generative Panoramic Videos from Casual Panning Videos

Resumen

Support