Orient Anything V2 : Unification de la compréhension de l'orientation et de la rotation
Orient Anything V2: Unifying Orientation and Rotation Understanding
January 9, 2026
papers.authors: Zehan Wang, Ziang Zhang, Jiayang Xu, Jialei Wang, Tianyu Pang, Chao Du, HengShuang Zhao, Zhou Zhao
cs.AI
papers.abstract
Ce travail présente Orient Anything V2, un modèle de fondation amélioré pour la compréhension unifiée de l'orientation et de la rotation 3D d'objets à partir d'images uniques ou appariées. S'appuyant sur Orient Anything V1, qui définit l'orientation via une unique face avant, la version V2 étend cette capacité pour gérer des objets avec des symétries rotationnelles diverses et estimer directement les rotations relatives. Ces améliorations sont permises par quatre innovations clés : 1) Des assets 3D synthétisés de manière scalable par des modèles génératifs, garantissant une couverture étendue de catégories et une distribution équilibrée des données ; 2) Un système d'annotation efficace, à modèle en boucle, qui identifie de manière robuste de 0 à N faces avant valides pour chaque objet ; 3) Un objectif d'ajustement de distribution périodique, sensible à la symétrie, qui capture toutes les orientations plausibles face à l'avant, modélisant efficacement la symétrie rotationnelle de l'objet ; 4) Une architecture multi-images qui prédit directement les rotations relatives des objets. Des expériences approfondies montrent qu'Orient Anything V2 atteint des performances state-of-the-art en généralisation zero-shot sur l'estimation d'orientation, l'estimation de pose 6DoF et la reconnaissance de symétrie d'objets sur 11 benchmarks largement utilisés. Le modèle démontre une forte capacité de généralisation, élargissant significativement l'applicabilité de l'estimation d'orientation dans diverses tâches en aval.
English
This work presents Orient Anything V2, an enhanced foundation model for unified understanding of object 3D orientation and rotation from single or paired images. Building upon Orient Anything V1, which defines orientation via a single unique front face, V2 extends this capability to handle objects with diverse rotational symmetries and directly estimate relative rotations. These improvements are enabled by four key innovations: 1) Scalable 3D assets synthesized by generative models, ensuring broad category coverage and balanced data distribution; 2) An efficient, model-in-the-loop annotation system that robustly identifies 0 to N valid front faces for each object; 3) A symmetry-aware, periodic distribution fitting objective that captures all plausible front-facing orientations, effectively modeling object rotational symmetry; 4) A multi-frame architecture that directly predicts relative object rotations. Extensive experiments show that Orient Anything V2 achieves state-of-the-art zero-shot performance on orientation estimation, 6DoF pose estimation, and object symmetry recognition across 11 widely used benchmarks. The model demonstrates strong generalization, significantly broadening the applicability of orientation estimation in diverse downstream tasks.