Orient Anything V2: Unificación de la Comprensión de la Orientación y la Rotación
Orient Anything V2: Unifying Orientation and Rotation Understanding
January 9, 2026
Autores: Zehan Wang, Ziang Zhang, Jiayang Xu, Jialei Wang, Tianyu Pang, Chao Du, HengShuang Zhao, Zhou Zhao
cs.AI
Resumen
Este trabajo presenta Orient Anything V2, un modelo de base mejorado para la comprensión unificada de la orientación y rotación 3D de objetos a partir de imágenes individuales o pareadas. Partiendo de Orient Anything V1, que define la orientación mediante una única cara frontal única, la versión V2 amplía esta capacidad para manejar objetos con diversas simetrías rotacionales y estimar directamente rotaciones relativas. Estas mejoras son posibles gracias a cuatro innovaciones clave: 1) Activos 3D escalables sintetizados por modelos generativos, que garantizan una amplia cobertura de categorías y una distribución equilibrada de los datos; 2) Un sistema de anotación eficiente con el modelo en el bucle, que identifica de forma robusta de 0 a N caras frontales válidas para cada objeto; 3) Una función de pérdida que ajusta distribuciones periódicas consciente de la simetría, capturando todas las orientaciones frontales plausibles y modelando eficazmente la simetría rotacional del objeto; 4) Una arquitectura multifotograma que predice directamente las rotaciones relativas de los objetos. Experimentos exhaustivos demuestran que Orient Anything V2 logra un rendimiento de cero disparos de vanguardia en estimación de orientación, estimación de pose 6DoF y reconocimiento de simetría de objetos en 11 puntos de referencia ampliamente utilizados. El modelo demuestra una fuerte generalización, ampliando significativamente la aplicabilidad de la estimación de orientación en diversas tareas posteriores.
English
This work presents Orient Anything V2, an enhanced foundation model for unified understanding of object 3D orientation and rotation from single or paired images. Building upon Orient Anything V1, which defines orientation via a single unique front face, V2 extends this capability to handle objects with diverse rotational symmetries and directly estimate relative rotations. These improvements are enabled by four key innovations: 1) Scalable 3D assets synthesized by generative models, ensuring broad category coverage and balanced data distribution; 2) An efficient, model-in-the-loop annotation system that robustly identifies 0 to N valid front faces for each object; 3) A symmetry-aware, periodic distribution fitting objective that captures all plausible front-facing orientations, effectively modeling object rotational symmetry; 4) A multi-frame architecture that directly predicts relative object rotations. Extensive experiments show that Orient Anything V2 achieves state-of-the-art zero-shot performance on orientation estimation, 6DoF pose estimation, and object symmetry recognition across 11 widely used benchmarks. The model demonstrates strong generalization, significantly broadening the applicability of orientation estimation in diverse downstream tasks.