Orient Anything V2: Unificando a Compreensão de Orientação e Rotação

Resumo

Este trabalho apresenta o Orient Anything V2, um modelo de base aprimorado para a compreensão unificada da orientação e rotação 3D de objetos a partir de imagens únicas ou emparelhadas. Com base no Orient Anything V1, que define a orientação através de uma única face frontal única, a versão V2 estende esta capacidade para lidar com objetos com diversas simetrias rotacionais e estimar diretamente rotações relativas. Essas melhorias são possibilitadas por quatro inovações principais: 1) Ativos 3D escaláveis sintetizados por modelos generativos, garantindo ampla cobertura de categorias e distribuição balanceada de dados; 2) Um sistema de anotação eficiente, com modelo em *loop*, que identifica de forma robusta de 0 a N faces frontais válidas para cada objeto; 3) Um objetivo de ajuste de distribuição periódica e consciente da simetria, que captura todas as orientações frontais plausíveis, modelando efetivamente a simetria rotacional do objeto; 4) Uma arquitetura multiframe que prevê diretamente as rotações relativas do objeto. Experimentos extensivos mostram que o Orient Anything V2 alcança desempenho *zero-shot* state-of-the-art em estimativa de orientação, estimativa de pose 6DoF e reconhecimento de simetria de objetos em 11 *benchmarks* amplamente utilizados. O modelo demonstra forte generalização, ampliando significativamente a aplicabilidade da estimativa de orientação em diversas tarefas subsequentes.

English

This work presents Orient Anything V2, an enhanced foundation model for unified understanding of object 3D orientation and rotation from single or paired images. Building upon Orient Anything V1, which defines orientation via a single unique front face, V2 extends this capability to handle objects with diverse rotational symmetries and directly estimate relative rotations. These improvements are enabled by four key innovations: 1) Scalable 3D assets synthesized by generative models, ensuring broad category coverage and balanced data distribution; 2) An efficient, model-in-the-loop annotation system that robustly identifies 0 to N valid front faces for each object; 3) A symmetry-aware, periodic distribution fitting objective that captures all plausible front-facing orientations, effectively modeling object rotational symmetry; 4) A multi-frame architecture that directly predicts relative object rotations. Extensive experiments show that Orient Anything V2 achieves state-of-the-art zero-shot performance on orientation estimation, 6DoF pose estimation, and object symmetry recognition across 11 widely used benchmarks. The model demonstrates strong generalization, significantly broadening the applicability of orientation estimation in diverse downstream tasks.

Orient Anything V2: Unificando a Compreensão de Orientação e Rotação

Orient Anything V2: Unifying Orientation and Rotation Understanding

Resumo

Support