Comprensión de la Interacción con Objetos 3D a partir de una Única Imagen
Understanding 3D Object Interaction from a Single Image
May 16, 2023
Autores: Shengyi Qian, David F. Fouhey
cs.AI
Resumen
Los seres humanos pueden comprender fácilmente que una sola imagen representa múltiples objetos potenciales que permiten la interacción. Utilizamos esta habilidad para planificar nuestras interacciones con el mundo y acelerar la comprensión de nuevos objetos sin necesidad de interactuar con ellos. En este artículo, nos gustaría dotar a las máquinas de una habilidad similar, para que los agentes inteligentes puedan explorar mejor la escena 3D o manipular objetos. Nuestro enfoque es un modelo basado en transformadores que predice la ubicación en 3D, las propiedades físicas y la capacidad de interacción (affordance) de los objetos. Para alimentar este modelo, recopilamos un conjunto de datos con videos de Internet, videos egocéntricos e imágenes de interiores para entrenar y validar nuestro enfoque. Nuestro modelo muestra un rendimiento sólido en nuestros datos y se generaliza bien a datos robóticos.
English
Humans can easily understand a single image as depicting multiple potential
objects permitting interaction. We use this skill to plan our interactions with
the world and accelerate understanding new objects without engaging in
interaction. In this paper, we would like to endow machines with the similar
ability, so that intelligent agents can better explore the 3D scene or
manipulate objects. Our approach is a transformer-based model that predicts the
3D location, physical properties and affordance of objects. To power this
model, we collect a dataset with Internet videos, egocentric videos and indoor
images to train and validate our approach. Our model yields strong performance
on our data, and generalizes well to robotics data.