Comprendere l'interazione con oggetti 3D da una singola immagine
Understanding 3D Object Interaction from a Single Image
May 16, 2023
Autori: Shengyi Qian, David F. Fouhey
cs.AI
Abstract
Gli esseri umani possono facilmente interpretare una singola immagine come la rappresentazione di molteplici oggetti potenziali che consentono interazioni. Utilizziamo questa abilità per pianificare le nostre interazioni con il mondo e accelerare la comprensione di nuovi oggetti senza dover necessariamente interagire con essi. In questo articolo, desideriamo dotare le macchine di un'abilità simile, in modo che gli agenti intelligenti possano esplorare meglio le scene 3D o manipolare oggetti. Il nostro approccio si basa su un modello transformer che predice la posizione 3D, le proprietà fisiche e le affordance degli oggetti. Per alimentare questo modello, abbiamo raccolto un dataset composto da video di Internet, video egocentrici e immagini di ambienti interni per addestrare e validare il nostro approccio. Il nostro modello dimostra prestazioni solide sui nostri dati e si generalizza bene ai dati robotici.
English
Humans can easily understand a single image as depicting multiple potential
objects permitting interaction. We use this skill to plan our interactions with
the world and accelerate understanding new objects without engaging in
interaction. In this paper, we would like to endow machines with the similar
ability, so that intelligent agents can better explore the 3D scene or
manipulate objects. Our approach is a transformer-based model that predicts the
3D location, physical properties and affordance of objects. To power this
model, we collect a dataset with Internet videos, egocentric videos and indoor
images to train and validate our approach. Our model yields strong performance
on our data, and generalizes well to robotics data.