ChatPaper.aiChatPaper

Orient Anything: Aprendizaje de Estimación Robusta de la Orientación de Objetos a partir de la Representación de Modelos 3D

Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models

December 24, 2024
Autores: Zehan Wang, Ziang Zhang, Tianyu Pang, Chao Du, Hengshuang Zhao, Zhou Zhao
cs.AI

Resumen

La orientación es un atributo clave de los objetos, fundamental para comprender su posición espacial y disposición en imágenes. Sin embargo, las soluciones prácticas para una estimación precisa de la orientación a partir de una sola imagen siguen siendo poco exploradas. En este trabajo, presentamos Orient Anything, el primer modelo experto y fundamental diseñado para estimar la orientación de objetos en una imagen única y de vista libre. Debido a la escasez de datos etiquetados, proponemos extraer conocimiento del mundo 3D. Al desarrollar un proceso para anotar la cara frontal de objetos 3D y generar imágenes desde vistas aleatorias, recopilamos 2 millones de imágenes con anotaciones de orientación precisas. Para aprovechar al máximo el conjunto de datos, diseñamos un objetivo de entrenamiento robusto que modela la orientación 3D como distribuciones de probabilidad de tres ángulos y predice la orientación del objeto ajustando estas distribuciones. Además, empleamos varias estrategias para mejorar la transferencia de lo sintético a lo real. Nuestro modelo logra una precisión de estimación de orientación de vanguardia tanto en imágenes renderizadas como reales y muestra una impresionante capacidad de cero disparos en varios escenarios. Más importante aún, nuestro modelo mejora muchas aplicaciones, como la comprensión y generación de conceptos espaciales complejos y el ajuste de la posición de objetos 3D.
English
Orientation is a key attribute of objects, crucial for understanding their spatial pose and arrangement in images. However, practical solutions for accurate orientation estimation from a single image remain underexplored. In this work, we introduce Orient Anything, the first expert and foundational model designed to estimate object orientation in a single- and free-view image. Due to the scarcity of labeled data, we propose extracting knowledge from the 3D world. By developing a pipeline to annotate the front face of 3D objects and render images from random views, we collect 2M images with precise orientation annotations. To fully leverage the dataset, we design a robust training objective that models the 3D orientation as probability distributions of three angles and predicts the object orientation by fitting these distributions. Besides, we employ several strategies to improve synthetic-to-real transfer. Our model achieves state-of-the-art orientation estimation accuracy in both rendered and real images and exhibits impressive zero-shot ability in various scenarios. More importantly, our model enhances many applications, such as comprehension and generation of complex spatial concepts and 3D object pose adjustment.

Summary

AI-Generated Summary

PDF214December 30, 2024