Comprendre l'interaction d'objets 3D à partir d'une seule image
Understanding 3D Object Interaction from a Single Image
May 16, 2023
Auteurs: Shengyi Qian, David F. Fouhey
cs.AI
Résumé
Les humains peuvent facilement interpréter une image unique comme représentant plusieurs objets potentiels permettant une interaction. Nous utilisons cette compétence pour planifier nos interactions avec le monde et accélérer la compréhension de nouveaux objets sans avoir besoin d'interagir directement. Dans cet article, nous souhaitons doter les machines d'une capacité similaire, afin que les agents intelligents puissent mieux explorer les scènes 3D ou manipuler des objets. Notre approche repose sur un modèle basé sur les transformers, qui prédit la localisation 3D, les propriétés physiques et les affordances des objets. Pour alimenter ce modèle, nous avons constitué un ensemble de données comprenant des vidéos issues d'Internet, des vidéos égocentriques et des images d'intérieur, afin de l'entraîner et de le valider. Notre modèle démontre de solides performances sur nos données et se généralise efficacement aux données robotiques.
English
Humans can easily understand a single image as depicting multiple potential
objects permitting interaction. We use this skill to plan our interactions with
the world and accelerate understanding new objects without engaging in
interaction. In this paper, we would like to endow machines with the similar
ability, so that intelligent agents can better explore the 3D scene or
manipulate objects. Our approach is a transformer-based model that predicts the
3D location, physical properties and affordance of objects. To power this
model, we collect a dataset with Internet videos, egocentric videos and indoor
images to train and validate our approach. Our model yields strong performance
on our data, and generalizes well to robotics data.