Comprensión de Escenas 3D mediante Modelado de Secuencias con Acceso Aleatorio Local
3D Scene Understanding Through Local Random Access Sequence Modeling
April 4, 2025
Autores: Wanhee Lee, Klemen Kotar, Rahul Mysore Venkatesh, Jared Watrous, Honglin Chen, Khai Loong Aw, Daniel L. K. Yamins
cs.AI
Resumen
La comprensión de escenas 3D a partir de imágenes individuales es un problema fundamental en visión por computadora con numerosas aplicaciones en gráficos, realidad aumentada y robótica. Aunque los enfoques basados en difusión han mostrado resultados prometedores, a menudo luchan por mantener la consistencia de objetos y escenas, especialmente en escenarios complejos del mundo real. Para abordar estas limitaciones, proponemos un enfoque generativo autorregresivo llamado Modelado de Secuencia de Acceso Aleatorio Local (LRAS, por sus siglas en inglés), que utiliza cuantización de parches locales y generación de secuencias con orden aleatorio. Al emplear el flujo óptico como representación intermedia para la edición de escenas 3D, nuestros experimentos demuestran que LRAS logra capacidades de síntesis de vistas novedosas y manipulación de objetos 3D de vanguardia. Además, mostramos que nuestro marco se extiende naturalmente a la estimación de profundidad auto-supervisada mediante una simple modificación del diseño de la secuencia. Al alcanzar un rendimiento sólido en múltiples tareas de comprensión de escenas 3D, LRAS proporciona un marco unificado y efectivo para construir la próxima generación de modelos de visión 3D.
English
3D scene understanding from single images is a pivotal problem in computer
vision with numerous downstream applications in graphics, augmented reality,
and robotics. While diffusion-based modeling approaches have shown promise,
they often struggle to maintain object and scene consistency, especially in
complex real-world scenarios. To address these limitations, we propose an
autoregressive generative approach called Local Random Access Sequence (LRAS)
modeling, which uses local patch quantization and randomly ordered sequence
generation. By utilizing optical flow as an intermediate representation for 3D
scene editing, our experiments demonstrate that LRAS achieves state-of-the-art
novel view synthesis and 3D object manipulation capabilities. Furthermore, we
show that our framework naturally extends to self-supervised depth estimation
through a simple modification of the sequence design. By achieving strong
performance on multiple 3D scene understanding tasks, LRAS provides a unified
and effective framework for building the next generation of 3D vision models.Summary
AI-Generated Summary