ChatPaper.aiChatPaper

Orient Anything V2: Унификация понимания ориентации и вращения

Orient Anything V2: Unifying Orientation and Rotation Understanding

January 9, 2026
Авторы: Zehan Wang, Ziang Zhang, Jiayang Xu, Jialei Wang, Tianyu Pang, Chao Du, HengShuang Zhao, Zhou Zhao
cs.AI

Аннотация

Данная работа представляет Orient Anything V2 — усовершенствованную базовую модель для унифицированного понимания трехмерной ориентации и вращения объектов по одиночным или парным изображениям. Развивая подход Orient Anything V1, который определял ориентацию через единственную уникальную лицевую грань, версия V2 расширяет эти возможности для работы с объектами, обладающими различной вращательной симметрией, и для прямой оценки относительных поворотов. Эти улучшения стали возможными благодаря четырем ключевым инновациям: 1) Масштабируемые 3D-ассеты, синтезированные генеративными моделями, что обеспечивает широкий охват категорий и сбалансированное распределение данных; 2) Эффективная система аннотирования с моделью в контуре, которая надежно идентифицирует от 0 до N допустимых лицевых граней для каждого объекта; 3) Симметрий-осознающая цель обучения с подгонкой периодического распределения, которая захватывает все правдоподобные ориентации лицевой стороны, эффективно моделируя вращательную симметрию объекта; 4) Многокадровая архитектура, которая напрямую предсказывает относительные вращения объекта. Многочисленные эксперименты показывают, что Orient Anything V2 достигает наилучших результатов в условиях zero-shot для задач оценки ориентации, оценки 6DoF-позы и распознавания симметрии объектов на 11 широко используемых бенчмарках. Модель демонстрирует сильную способность к обобщению, существенно расширяя применимость оценки ориентации в различных downstream-задачах.
English
This work presents Orient Anything V2, an enhanced foundation model for unified understanding of object 3D orientation and rotation from single or paired images. Building upon Orient Anything V1, which defines orientation via a single unique front face, V2 extends this capability to handle objects with diverse rotational symmetries and directly estimate relative rotations. These improvements are enabled by four key innovations: 1) Scalable 3D assets synthesized by generative models, ensuring broad category coverage and balanced data distribution; 2) An efficient, model-in-the-loop annotation system that robustly identifies 0 to N valid front faces for each object; 3) A symmetry-aware, periodic distribution fitting objective that captures all plausible front-facing orientations, effectively modeling object rotational symmetry; 4) A multi-frame architecture that directly predicts relative object rotations. Extensive experiments show that Orient Anything V2 achieves state-of-the-art zero-shot performance on orientation estimation, 6DoF pose estimation, and object symmetry recognition across 11 widely used benchmarks. The model demonstrates strong generalization, significantly broadening the applicability of orientation estimation in diverse downstream tasks.
PDF71January 13, 2026