Verständnis der 3D-Objektinteraktion aus einem einzelnen Bild
Understanding 3D Object Interaction from a Single Image
May 16, 2023
Autoren: Shengyi Qian, David F. Fouhey
cs.AI
Zusammenfassung
Menschen können ein einzelnes Bild problemlos als Darstellung mehrerer potenzieller Objekte verstehen, die eine Interaktion ermöglichen. Wir nutzen diese Fähigkeit, um unsere Interaktionen mit der Welt zu planen und das Verständnis neuer Objekte zu beschleunigen, ohne direkt mit ihnen zu interagieren. In diesem Artikel möchten wir Maschinen eine ähnliche Fähigkeit verleihen, damit intelligente Agenten 3D-Szenen besser erkunden oder Objekte manipulieren können. Unser Ansatz ist ein Transformer-basiertes Modell, das die 3D-Position, physikalischen Eigenschaften und Affordanzen von Objekten vorhersagt. Um dieses Modell zu trainieren, sammeln wir einen Datensatz mit Internetvideos, egozentrischen Videos und Innenraumaufgaben, um unseren Ansatz zu trainieren und zu validieren. Unser Modell erzielt eine starke Leistung auf unseren Daten und generalisiert gut auf Robotikdaten.
English
Humans can easily understand a single image as depicting multiple potential
objects permitting interaction. We use this skill to plan our interactions with
the world and accelerate understanding new objects without engaging in
interaction. In this paper, we would like to endow machines with the similar
ability, so that intelligent agents can better explore the 3D scene or
manipulate objects. Our approach is a transformer-based model that predicts the
3D location, physical properties and affordance of objects. To power this
model, we collect a dataset with Internet videos, egocentric videos and indoor
images to train and validate our approach. Our model yields strong performance
on our data, and generalizes well to robotics data.