Comprendere l'interazione con oggetti 3D da una singola immagine

Abstract

Gli esseri umani possono facilmente interpretare una singola immagine come la rappresentazione di molteplici oggetti potenziali che consentono interazioni. Utilizziamo questa abilità per pianificare le nostre interazioni con il mondo e accelerare la comprensione di nuovi oggetti senza dover necessariamente interagire con essi. In questo articolo, desideriamo dotare le macchine di un'abilità simile, in modo che gli agenti intelligenti possano esplorare meglio le scene 3D o manipolare oggetti. Il nostro approccio si basa su un modello transformer che predice la posizione 3D, le proprietà fisiche e le affordance degli oggetti. Per alimentare questo modello, abbiamo raccolto un dataset composto da video di Internet, video egocentrici e immagini di ambienti interni per addestrare e validare il nostro approccio. Il nostro modello dimostra prestazioni solide sui nostri dati e si generalizza bene ai dati robotici.

English

Humans can easily understand a single image as depicting multiple potential objects permitting interaction. We use this skill to plan our interactions with the world and accelerate understanding new objects without engaging in interaction. In this paper, we would like to endow machines with the similar ability, so that intelligent agents can better explore the 3D scene or manipulate objects. Our approach is a transformer-based model that predicts the 3D location, physical properties and affordance of objects. To power this model, we collect a dataset with Internet videos, egocentric videos and indoor images to train and validate our approach. Our model yields strong performance on our data, and generalizes well to robotics data.

Comprendere l'interazione con oggetti 3D da una singola immagine

Understanding 3D Object Interaction from a Single Image

Abstract

Support