Compreendendo a Interação com Objetos 3D a partir de uma Única Imagem

Resumo

Os seres humanos podem facilmente compreender uma única imagem como representando múltiplos objetos potenciais que permitem interação. Utilizamos essa habilidade para planejar nossas interações com o mundo e acelerar a compreensão de novos objetos sem precisar engajar em interações. Neste artigo, gostaríamos de dotar as máquinas com uma habilidade similar, para que agentes inteligentes possam explorar melhor a cena 3D ou manipular objetos. Nossa abordagem é um modelo baseado em transformers que prevê a localização 3D, propriedades físicas e affordances dos objetos. Para alimentar esse modelo, coletamos um conjunto de dados com vídeos da internet, vídeos egocêntricos e imagens de ambientes internos para treinar e validar nossa abordagem. Nosso modelo apresenta um desempenho robusto em nossos dados e generaliza bem para dados de robótica.

English

Humans can easily understand a single image as depicting multiple potential objects permitting interaction. We use this skill to plan our interactions with the world and accelerate understanding new objects without engaging in interaction. In this paper, we would like to endow machines with the similar ability, so that intelligent agents can better explore the 3D scene or manipulate objects. Our approach is a transformer-based model that predicts the 3D location, physical properties and affordance of objects. To power this model, we collect a dataset with Internet videos, egocentric videos and indoor images to train and validate our approach. Our model yields strong performance on our data, and generalizes well to robotics data.

Compreendendo a Interação com Objetos 3D a partir de uma Única Imagem

Understanding 3D Object Interaction from a Single Image

Resumo

Support