Orient Anything V2:配向と回転の理解の統一
Orient Anything V2: Unifying Orientation and Rotation Understanding
January 9, 2026
著者: Zehan Wang, Ziang Zhang, Jiayang Xu, Jialei Wang, Tianyu Pang, Chao Du, HengShuang Zhao, Zhou Zhao
cs.AI
要旨
本論文は、単一またはペア画像からの物体3次元向き・回転の統合的理解を目的とした拡張基盤モデル「Orient Anything V2」を提案する。前バージョン(V1)が単一のユニークな正面で向きを定義したのに対し、V2は多様な回転対称性を持つ物体への対応能力を拡張し、相対回転を直接推定する。この進化は以下の4つの核心的革新により実現されている:1)生成モデルによるスケーラブルな3Dアセット合成により、広範なカテゴリ網羅と均衡データ分布を確保、2)各物体に対して0~N個の有効な正面をロバストに同定する効率的なモデル内ループ注釄システム、3)全ての可能性のある正面方向を捕捉する対称性考慮型周期分布フィッティング目的関数により、物体の回転対称性を効果的にモデル化、4)物体の相対回転を直接予測するマルチフレームアーキテクチャ。大規模実験により、Orient Anything V2は11の広く利用されているベンチマークにおいて、向き推定・6DoF姿勢推定・物体対称性認識の各タスクでゼロショット性能が最先端を達成した。本モデルは優れた一般化能力を示し、向き推定の多様な下流タスクへの適用可能性を大幅に拡大している。
English
This work presents Orient Anything V2, an enhanced foundation model for unified understanding of object 3D orientation and rotation from single or paired images. Building upon Orient Anything V1, which defines orientation via a single unique front face, V2 extends this capability to handle objects with diverse rotational symmetries and directly estimate relative rotations. These improvements are enabled by four key innovations: 1) Scalable 3D assets synthesized by generative models, ensuring broad category coverage and balanced data distribution; 2) An efficient, model-in-the-loop annotation system that robustly identifies 0 to N valid front faces for each object; 3) A symmetry-aware, periodic distribution fitting objective that captures all plausible front-facing orientations, effectively modeling object rotational symmetry; 4) A multi-frame architecture that directly predicts relative object rotations. Extensive experiments show that Orient Anything V2 achieves state-of-the-art zero-shot performance on orientation estimation, 6DoF pose estimation, and object symmetry recognition across 11 widely used benchmarks. The model demonstrates strong generalization, significantly broadening the applicability of orientation estimation in diverse downstream tasks.