Orienter n'importe quoi : Apprentissage de l'estimation robuste de l'orientation des objets à partir du rendu de modèles 3D
Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models
December 24, 2024
Auteurs: Zehan Wang, Ziang Zhang, Tianyu Pang, Chao Du, Hengshuang Zhao, Zhou Zhao
cs.AI
Résumé
L'orientation est un attribut clé des objets, crucial pour comprendre leur position spatiale et leur disposition dans les images. Cependant, les solutions pratiques pour estimer précisément l'orientation à partir d'une seule image restent peu explorées. Dans ce travail, nous introduisons Orient Anything, le premier modèle expert et fondamental conçu pour estimer l'orientation des objets dans une image unique et libre. En raison de la rareté des données étiquetées, nous proposons d'extraire des connaissances du monde en 3D. En développant un pipeline pour annoter le visage avant des objets en 3D et générer des images à partir de vues aléatoires, nous collectons 2 millions d'images avec des annotations d'orientation précises. Pour exploiter pleinement l'ensemble de données, nous concevons un objectif d'entraînement robuste qui modélise l'orientation en 3D sous forme de distributions de probabilités de trois angles et prédit l'orientation de l'objet en ajustant ces distributions. De plus, nous utilisons plusieurs stratégies pour améliorer le transfert du synthétique au réel. Notre modèle atteint une précision d'estimation d'orientation de pointe à la fois dans les images rendues et réelles et présente une capacité impressionnante de zéro-shot dans divers scénarios. Plus important encore, notre modèle améliore de nombreuses applications, telles que la compréhension et la génération de concepts spatiaux complexes et l'ajustement de la pose d'objets en 3D.
English
Orientation is a key attribute of objects, crucial for understanding their
spatial pose and arrangement in images. However, practical solutions for
accurate orientation estimation from a single image remain underexplored. In
this work, we introduce Orient Anything, the first expert and foundational
model designed to estimate object orientation in a single- and free-view image.
Due to the scarcity of labeled data, we propose extracting knowledge from the
3D world. By developing a pipeline to annotate the front face of 3D objects and
render images from random views, we collect 2M images with precise orientation
annotations. To fully leverage the dataset, we design a robust training
objective that models the 3D orientation as probability distributions of three
angles and predicts the object orientation by fitting these distributions.
Besides, we employ several strategies to improve synthetic-to-real transfer.
Our model achieves state-of-the-art orientation estimation accuracy in both
rendered and real images and exhibits impressive zero-shot ability in various
scenarios. More importantly, our model enhances many applications, such as
comprehension and generation of complex spatial concepts and 3D object pose
adjustment.Summary
AI-Generated Summary