Orient Anything V2: Unificare la Comprensione di Orientamento e Rotazione

Abstract

Questo lavoro presenta Orient Anything V2, un modello base potenziato per la comprensione unificata dell'orientamento e della rotazione 3D di oggetti a partire da immagini singole o accoppiate. Basandosi su Orient Anything V1, che definisce l'orientamento tramite un'unica faccia frontale, la versione V2 estende questa capacità per gestire oggetti con diverse simmetrie rotazionali e stimare direttamente le rotazioni relative. Questi miglioramenti sono resi possibili da quattro innovazioni chiave: 1) Risorse 3D scalabili sintetizzate da modelli generativi, che garantiscono un'ampia copertura di categorie e una distribuzione bilanciata dei dati; 2) Un sistema di annotazione efficiente con modello in-the-loop che identifica in modo robusto da 0 a N facce frontali valide per ogni oggetto; 3) Un obiettivo di adattamento di distribuzione periodica e consapevole della simmetria, che cattura tutte le orientazioni frontali plausibili, modellando efficacemente la simmetria rotazionale dell'oggetto; 4) Un'architettura multi-fotogramma che predice direttamente le rotazioni relative degli oggetti. Esperimenti estesi dimostrano che Orient Anything V2 raggiunge prestazioni state-of-the-art zero-shot nella stima dell'orientamento, nella stima della posa 6DoF e nel riconoscimento della simmetria degli oggetti su 11 benchmark ampiamente utilizzati. Il modello mostra una forte generalizzazione, ampliando significativamente l'applicabilità della stima dell'orientamento in vari task downstream.

English

This work presents Orient Anything V2, an enhanced foundation model for unified understanding of object 3D orientation and rotation from single or paired images. Building upon Orient Anything V1, which defines orientation via a single unique front face, V2 extends this capability to handle objects with diverse rotational symmetries and directly estimate relative rotations. These improvements are enabled by four key innovations: 1) Scalable 3D assets synthesized by generative models, ensuring broad category coverage and balanced data distribution; 2) An efficient, model-in-the-loop annotation system that robustly identifies 0 to N valid front faces for each object; 3) A symmetry-aware, periodic distribution fitting objective that captures all plausible front-facing orientations, effectively modeling object rotational symmetry; 4) A multi-frame architecture that directly predicts relative object rotations. Extensive experiments show that Orient Anything V2 achieves state-of-the-art zero-shot performance on orientation estimation, 6DoF pose estimation, and object symmetry recognition across 11 widely used benchmarks. The model demonstrates strong generalization, significantly broadening the applicability of orientation estimation in diverse downstream tasks.

Orient Anything V2: Unificare la Comprensione di Orientamento e Rotazione

Orient Anything V2: Unifying Orientation and Rotation Understanding

Abstract

Support