3D-objectinteractie begrijpen vanuit een enkele afbeelding
Understanding 3D Object Interaction from a Single Image
May 16, 2023
Auteurs: Shengyi Qian, David F. Fouhey
cs.AI
Samenvatting
Mensen kunnen een enkele afbeelding gemakkelijk interpreteren als het weergeven van meerdere potentiële objecten die interactie mogelijk maken. We gebruiken deze vaardigheid om onze interacties met de wereld te plannen en het begrip van nieuwe objecten te versnellen zonder daadwerkelijk interactie aan te gaan. In dit artikel willen we machines een vergelijkbaar vermogen geven, zodat intelligente agents 3D-scènes beter kunnen verkennen of objecten kunnen manipuleren. Onze aanpak is een transformer-gebaseerd model dat de 3D-locatie, fysieke eigenschappen en affordantie van objecten voorspelt. Om dit model te voeden, verzamelen we een dataset met internetvideo's, egocentrische video's en binnenhuisafbeeldingen om onze aanpak te trainen en te valideren. Ons model levert sterke prestaties op onze data en generaliseert goed naar robotica-data.
English
Humans can easily understand a single image as depicting multiple potential
objects permitting interaction. We use this skill to plan our interactions with
the world and accelerate understanding new objects without engaging in
interaction. In this paper, we would like to endow machines with the similar
ability, so that intelligent agents can better explore the 3D scene or
manipulate objects. Our approach is a transformer-based model that predicts the
3D location, physical properties and affordance of objects. To power this
model, we collect a dataset with Internet videos, egocentric videos and indoor
images to train and validate our approach. Our model yields strong performance
on our data, and generalizes well to robotics data.