Orient Anything V2: Unificatie van Oriëntatie- en Rotatiebegrip
Orient Anything V2: Unifying Orientation and Rotation Understanding
January 9, 2026
Auteurs: Zehan Wang, Ziang Zhang, Jiayang Xu, Jialei Wang, Tianyu Pang, Chao Du, HengShuang Zhao, Zhou Zhao
cs.AI
Samenvatting
Dit werk presenteert Orient Anything V2, een verbeterd foundation-model voor het uniform begrijpen van de 3D-orientatie en rotatie van objecten vanuit enkele of gepaarde afbeeldingen. Voortbouwend op Orient Anything V1, dat orientatie definieert via een uniek voorvlak, breidt V2 deze mogelijkheid uit om objecten met diverse rotatiesymmetrieën te verwerken en relatieve rotaties direct te schatten. Deze verbeteringen worden mogelijk gemaakt door vier belangrijke innovaties: 1) Schaalbare 3D-assets gegenereerd door generatieve modellen, die zorgen voor brede categorie-dekking en een gebalanceerde dataverdeling; 2) Een efficiënt, model-in-the-loop annotatiesysteem dat robuust 0 tot N geldige voorvlakken voor elk object identificeert; 3) Een symmetrie-bewust, periodiek distributie-aanpassingsdoel dat alle plausibele voorwaarts gerichte oriëntaties vastlegt, waardoor objectrotatiesymmetrie effectief wordt gemodelleerd; 4) Een multi-frame architectuur die relatieve objectrotaties direct voorspelt. Uitgebreide experimenten tonen aan dat Orient Anything V2 state-of-the-art zero-shot prestaties bereikt voor oriëntatieschatting, 6DoF-pose-schatting en object-symmetrieherkenning op 11 veelgebruikte benchmarks. Het model demonstreert sterke generalisatie, waardoor de toepasbaarheid van oriëntatieschatting in diverse downstreamtaken aanzienlijk wordt verbreed.
English
This work presents Orient Anything V2, an enhanced foundation model for unified understanding of object 3D orientation and rotation from single or paired images. Building upon Orient Anything V1, which defines orientation via a single unique front face, V2 extends this capability to handle objects with diverse rotational symmetries and directly estimate relative rotations. These improvements are enabled by four key innovations: 1) Scalable 3D assets synthesized by generative models, ensuring broad category coverage and balanced data distribution; 2) An efficient, model-in-the-loop annotation system that robustly identifies 0 to N valid front faces for each object; 3) A symmetry-aware, periodic distribution fitting objective that captures all plausible front-facing orientations, effectively modeling object rotational symmetry; 4) A multi-frame architecture that directly predicts relative object rotations. Extensive experiments show that Orient Anything V2 achieves state-of-the-art zero-shot performance on orientation estimation, 6DoF pose estimation, and object symmetry recognition across 11 widely used benchmarks. The model demonstrates strong generalization, significantly broadening the applicability of orientation estimation in diverse downstream tasks.