Orient Anything V2: 방향 이해와 회전 이해의 통합
Orient Anything V2: Unifying Orientation and Rotation Understanding
January 9, 2026
저자: Zehan Wang, Ziang Zhang, Jiayang Xu, Jialei Wang, Tianyu Pang, Chao Du, HengShuang Zhao, Zhou Zhao
cs.AI
초록
본 연구에서는 단일 또는 짝을 이룬 이미지로부터 객체의 3차원 방향 및 회전을 통합적으로 이해하는 향상된 파운데이션 모델인 Orient Anything V2를 제안한다. 단일 고유 정면을 통해 방향을 정의한 V1을 기반으로, V2는 다양한 회전 대칭성을 가진 객체를 처리하고 상대 회전을 직접 추정하는 능력으로 그 기능을 확장하였다. 이러한 향상은 네 가지 핵심 혁신을 통해 구현되었다: 1) 생성 모델로 합성된 확장 가능한 3D 자산으로, 광범위한 범주 coverage와 균형 잡힌 데이터 분포를 보장함; 2) 각 객체에 대해 0개에서 N개의 유효한 정면을 강건하게 식별하는 효율적인 모델-인-더-루프 주석 시스템; 3) 객체의 회전 대칭성을 효과적으로 모델링하며, 모든 가능한 정면 방향을 포착하는 대칭 인식 주기적 분포 적합 목적 함수; 4) 객체의 상대 회전을 직접 예측하는 다중 프레임 아키텍처. 폭넓은 실험을 통해 Orient Anything V2가 11개의 널리 사용되는 벤치마크에서 방향 추정, 6자유도 자세 추정, 객체 대칭 인식 분야에서 최첨단 제로샷 성능을 달성함을 입증하였다. 본 모델은 강력한 일반화 능력을 보여주며, 다양한 다운스트림 작업에서 방향 추정의 적용 가능성을 크게 확장하였다.
English
This work presents Orient Anything V2, an enhanced foundation model for unified understanding of object 3D orientation and rotation from single or paired images. Building upon Orient Anything V1, which defines orientation via a single unique front face, V2 extends this capability to handle objects with diverse rotational symmetries and directly estimate relative rotations. These improvements are enabled by four key innovations: 1) Scalable 3D assets synthesized by generative models, ensuring broad category coverage and balanced data distribution; 2) An efficient, model-in-the-loop annotation system that robustly identifies 0 to N valid front faces for each object; 3) A symmetry-aware, periodic distribution fitting objective that captures all plausible front-facing orientations, effectively modeling object rotational symmetry; 4) A multi-frame architecture that directly predicts relative object rotations. Extensive experiments show that Orient Anything V2 achieves state-of-the-art zero-shot performance on orientation estimation, 6DoF pose estimation, and object symmetry recognition across 11 widely used benchmarks. The model demonstrates strong generalization, significantly broadening the applicability of orientation estimation in diverse downstream tasks.