Orient Anything: Robuste Objektorientierungsschätzung aus dem Lernen von gerenderten 3D-Modellen
Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models
December 24, 2024
Autoren: Zehan Wang, Ziang Zhang, Tianyu Pang, Chao Du, Hengshuang Zhao, Zhou Zhao
cs.AI
Zusammenfassung
Die Orientierung ist ein Schlüsseleigenschaft von Objekten, die entscheidend ist, um ihre räumliche Ausrichtung und Anordnung in Bildern zu verstehen. Dennoch bleiben praktische Lösungen für eine genaue Orientierungsschätzung aus einem einzigen Bild weitgehend unerforscht. In dieser Arbeit stellen wir Orient Anything vor, das erste Experten- und grundlegende Modell, das entwickelt wurde, um die Objektorientierung in einem einzelnen- und freien Bild zu schätzen. Aufgrund des Mangels an gelabelten Daten schlagen wir vor, Wissen aus der 3D-Welt zu extrahieren. Durch die Entwicklung eines Workflows zur Annotation der Vorderseite von 3D-Objekten und zur Erzeugung von Bildern aus zufälligen Ansichten sammeln wir 2 Millionen Bilder mit präzisen Orientierungsannotationen. Um den Datensatz voll auszuschöpfen, entwerfen wir ein robustes Trainingsziel, das die 3D-Orientierung als Wahrscheinlichkeitsverteilungen von drei Winkeln modelliert und die Objektorientierung durch Anpassung dieser Verteilungen vorhersagt. Darüber hinaus setzen wir mehrere Strategien ein, um den Transfer von synthetischen zu realen Daten zu verbessern. Unser Modell erreicht eine Orientierungsschätzungsgenauigkeit auf dem neuesten Stand der Technik sowohl in gerenderten als auch in realen Bildern und zeigt eine beeindruckende Zero-Shot-Fähigkeit in verschiedenen Szenarien. Noch wichtiger ist, dass unser Modell viele Anwendungen verbessert, wie das Verständnis und die Generierung komplexer räumlicher Konzepte und die Anpassung der 3D-Objektposition.
English
Orientation is a key attribute of objects, crucial for understanding their
spatial pose and arrangement in images. However, practical solutions for
accurate orientation estimation from a single image remain underexplored. In
this work, we introduce Orient Anything, the first expert and foundational
model designed to estimate object orientation in a single- and free-view image.
Due to the scarcity of labeled data, we propose extracting knowledge from the
3D world. By developing a pipeline to annotate the front face of 3D objects and
render images from random views, we collect 2M images with precise orientation
annotations. To fully leverage the dataset, we design a robust training
objective that models the 3D orientation as probability distributions of three
angles and predicts the object orientation by fitting these distributions.
Besides, we employ several strategies to improve synthetic-to-real transfer.
Our model achieves state-of-the-art orientation estimation accuracy in both
rendered and real images and exhibits impressive zero-shot ability in various
scenarios. More importantly, our model enhances many applications, such as
comprehension and generation of complex spatial concepts and 3D object pose
adjustment.Summary
AI-Generated Summary