Compreendendo a Interação com Objetos 3D a partir de uma Única Imagem
Understanding 3D Object Interaction from a Single Image
May 16, 2023
Autores: Shengyi Qian, David F. Fouhey
cs.AI
Resumo
Os seres humanos podem facilmente compreender uma única imagem como representando múltiplos objetos potenciais que permitem interação. Utilizamos essa habilidade para planejar nossas interações com o mundo e acelerar a compreensão de novos objetos sem precisar engajar em interações. Neste artigo, gostaríamos de dotar as máquinas com uma habilidade similar, para que agentes inteligentes possam explorar melhor a cena 3D ou manipular objetos. Nossa abordagem é um modelo baseado em transformers que prevê a localização 3D, propriedades físicas e affordances dos objetos. Para alimentar esse modelo, coletamos um conjunto de dados com vídeos da internet, vídeos egocêntricos e imagens de ambientes internos para treinar e validar nossa abordagem. Nosso modelo apresenta um desempenho robusto em nossos dados e generaliza bem para dados de robótica.
English
Humans can easily understand a single image as depicting multiple potential
objects permitting interaction. We use this skill to plan our interactions with
the world and accelerate understanding new objects without engaging in
interaction. In this paper, we would like to endow machines with the similar
ability, so that intelligent agents can better explore the 3D scene or
manipulate objects. Our approach is a transformer-based model that predicts the
3D location, physical properties and affordance of objects. To power this
model, we collect a dataset with Internet videos, egocentric videos and indoor
images to train and validate our approach. Our model yields strong performance
on our data, and generalizes well to robotics data.