Ориентировать что угодно: обучение устойчивой оценке ориентации объекта из визуализации 3D-моделей
Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models
December 24, 2024
Авторы: Zehan Wang, Ziang Zhang, Tianyu Pang, Chao Du, Hengshuang Zhao, Zhou Zhao
cs.AI
Аннотация
Ориентация является ключевым атрибутом объектов, важным для понимания их пространственного положения и расположения на изображениях. Однако практические решения для точной оценки ориентации из одного изображения остаются недостаточно исследованными. В данной работе мы представляем Orient Anything, первую экспертную и фундаментальную модель, разработанную для оценки ориентации объекта на одиночном и свободном изображении. Из-за недостатка размеченных данных мы предлагаем извлекать знания из трехмерного мира. Разработав процесс аннотирования передней грани трехмерных объектов и создания изображений с произвольных точек зрения, мы собрали 2 миллиона изображений с точными аннотациями ориентации. Для полного использования набора данных мы разработали надежную целевую функцию обучения, которая моделирует трехмерную ориентацию как вероятностные распределения трех углов и предсказывает ориентацию объекта, подгоняясь под эти распределения. Кроме того, мы используем несколько стратегий для улучшения передачи синтетических данных в реальные. Наша модель достигает передовой точности оценки ориентации как на сгенерированных, так и на реальных изображениях, и проявляет впечатляющую способность к нулевому обучению в различных сценариях. Более того, наша модель улучшает множество приложений, таких как понимание и генерация сложных пространственных концепций и коррекция позы трехмерных объектов.
English
Orientation is a key attribute of objects, crucial for understanding their
spatial pose and arrangement in images. However, practical solutions for
accurate orientation estimation from a single image remain underexplored. In
this work, we introduce Orient Anything, the first expert and foundational
model designed to estimate object orientation in a single- and free-view image.
Due to the scarcity of labeled data, we propose extracting knowledge from the
3D world. By developing a pipeline to annotate the front face of 3D objects and
render images from random views, we collect 2M images with precise orientation
annotations. To fully leverage the dataset, we design a robust training
objective that models the 3D orientation as probability distributions of three
angles and predicts the object orientation by fitting these distributions.
Besides, we employ several strategies to improve synthetic-to-real transfer.
Our model achieves state-of-the-art orientation estimation accuracy in both
rendered and real images and exhibits impressive zero-shot ability in various
scenarios. More importantly, our model enhances many applications, such as
comprehension and generation of complex spatial concepts and 3D object pose
adjustment.Summary
AI-Generated Summary