ChatPaper.aiChatPaper

Oriënteer Alles: Het Leren van Robuuste Objectoriëntatie Schattingen uit het Renderen van 3D-Modellen

Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models

December 24, 2024
Auteurs: Zehan Wang, Ziang Zhang, Tianyu Pang, Chao Du, Hengshuang Zhao, Zhou Zhao
cs.AI

Samenvatting

Oriëntatie is een essentiële eigenschap van objecten, cruciaal voor het begrijpen van hun ruimtelijke houding en opstelling in afbeeldingen. Echter, praktische oplossingen voor nauwkeurige oriëntatieschatting vanuit een enkele afbeelding blijven onderbelicht. In dit werk introduceren we Orient Anything, het eerste expert- en fundamentele model dat is ontworpen om de oriëntatie van objecten te schatten in een enkele- en vrije kijkafbeelding. Vanwege de schaarste aan gelabelde gegevens stellen we voor om kennis te extraheren uit de 3D-wereld. Door een pijplijn te ontwikkelen om het voorvlak van 3D-objecten te annoteren en afbeeldingen van willekeurige weergaven te renderen, verzamelen we 2 miljoen afbeeldingen met nauwkeurige oriëntatieannotaties. Om het dataset volledig te benutten, ontwerpen we een robuust trainingsdoel dat de 3D-oriëntatie modelleert als kansverdelingen van drie hoeken en de objectoriëntatie voorspelt door deze verdelingen te passen. Bovendien passen we verschillende strategieën toe om de overdracht van synthetisch naar echt te verbeteren. Ons model behaalt state-of-the-art nauwkeurigheid in oriëntatieschatting in zowel gerenderde als echte afbeeldingen en vertoont indrukwekkende zero-shot mogelijkheden in verschillende scenario's. Belangrijker nog, ons model verbetert veel toepassingen, zoals het begrip en de generatie van complexe ruimtelijke concepten en de aanpassing van de houding van 3D-objecten.
English
Orientation is a key attribute of objects, crucial for understanding their spatial pose and arrangement in images. However, practical solutions for accurate orientation estimation from a single image remain underexplored. In this work, we introduce Orient Anything, the first expert and foundational model designed to estimate object orientation in a single- and free-view image. Due to the scarcity of labeled data, we propose extracting knowledge from the 3D world. By developing a pipeline to annotate the front face of 3D objects and render images from random views, we collect 2M images with precise orientation annotations. To fully leverage the dataset, we design a robust training objective that models the 3D orientation as probability distributions of three angles and predicts the object orientation by fitting these distributions. Besides, we employ several strategies to improve synthetic-to-real transfer. Our model achieves state-of-the-art orientation estimation accuracy in both rendered and real images and exhibits impressive zero-shot ability in various scenarios. More importantly, our model enhances many applications, such as comprehension and generation of complex spatial concepts and 3D object pose adjustment.
PDF224December 30, 2024