Comprensión de Escenas 3D mediante Modelado de Secuencias con Acceso Aleatorio Local

Resumen

La comprensión de escenas 3D a partir de imágenes individuales es un problema fundamental en visión por computadora con numerosas aplicaciones en gráficos, realidad aumentada y robótica. Aunque los enfoques basados en difusión han mostrado resultados prometedores, a menudo luchan por mantener la consistencia de objetos y escenas, especialmente en escenarios complejos del mundo real. Para abordar estas limitaciones, proponemos un enfoque generativo autorregresivo llamado Modelado de Secuencia de Acceso Aleatorio Local (LRAS, por sus siglas en inglés), que utiliza cuantización de parches locales y generación de secuencias con orden aleatorio. Al emplear el flujo óptico como representación intermedia para la edición de escenas 3D, nuestros experimentos demuestran que LRAS logra capacidades de síntesis de vistas novedosas y manipulación de objetos 3D de vanguardia. Además, mostramos que nuestro marco se extiende naturalmente a la estimación de profundidad auto-supervisada mediante una simple modificación del diseño de la secuencia. Al alcanzar un rendimiento sólido en múltiples tareas de comprensión de escenas 3D, LRAS proporciona un marco unificado y efectivo para construir la próxima generación de modelos de visión 3D.

English

3D scene understanding from single images is a pivotal problem in computer vision with numerous downstream applications in graphics, augmented reality, and robotics. While diffusion-based modeling approaches have shown promise, they often struggle to maintain object and scene consistency, especially in complex real-world scenarios. To address these limitations, we propose an autoregressive generative approach called Local Random Access Sequence (LRAS) modeling, which uses local patch quantization and randomly ordered sequence generation. By utilizing optical flow as an intermediate representation for 3D scene editing, our experiments demonstrate that LRAS achieves state-of-the-art novel view synthesis and 3D object manipulation capabilities. Furthermore, we show that our framework naturally extends to self-supervised depth estimation through a simple modification of the sequence design. By achieving strong performance on multiple 3D scene understanding tasks, LRAS provides a unified and effective framework for building the next generation of 3D vision models.