Diritto verso l'alto? Disentangling la comprensione dell'orientamento nei MLLM con compiti di percezione multi-assiale a grana fine
Right Side Up? Disentangling Orientation Understanding in MLLMs with Fine-grained Multi-axis Perception Tasks
May 27, 2025
Autori: Keanu Nichols, Nazia Tasnim, Yan Yuting, Nicholas Ikechukwu, Elva Zou, Deepti Ghadiyaram, Bryan Plummer
cs.AI
Abstract
La comprensione dell'orientamento degli oggetti rappresenta una sfida fondamentale nella percezione visiva, cruciale per applicazioni come la manipolazione robotica e la realtà aumentata. Gli attuali benchmark di visione e linguaggio non riescono a isolare questa capacità, spesso confondendola con relazioni posizionali e comprensione generale della scena. Introduciamo DORI (Discriminative Orientation Reasoning Intelligence), un benchmark completo che stabilisce la percezione dell'orientamento degli oggetti come obiettivo primario di valutazione. DORI valuta quattro dimensioni della comprensione dell'orientamento: allineamento frontale, trasformazioni rotazionali, relazioni direzionali relative e comprensione dell'orientamento canonico. Attraverso compiti accuratamente selezionati da 11 dataset che coprono 67 categorie di oggetti in scenari sia sintetici che reali, DORI fornisce approfondimenti su come i sistemi multimodali comprendono l'orientamento degli oggetti. La nostra valutazione di 15 modelli all'avanguardia di visione e linguaggio rivela limitazioni critiche: anche i migliori modelli raggiungono solo il 54,2% di accuratezza su compiti grossolani e il 33,0% su giudizi di orientamento granulari, con prestazioni che peggiorano per compiti che richiedono cambiamenti di frame di riferimento o rotazioni composte. Questi risultati dimostrano la necessità di meccanismi dedicati per la rappresentazione dell'orientamento, poiché i modelli mostrano un'incapacità sistematica di eseguire stime angolari precise, tracciare cambiamenti di orientamento tra punti di vista e comprendere rotazioni composte, suggerendo limitazioni nelle loro rappresentazioni spaziali 3D interne. Come primo framework diagnostico progettato specificamente per la consapevolezza dell'orientamento nei sistemi multimodali, DORI offre implicazioni per migliorare il controllo robotico, la ricostruzione di scene 3D e l'interazione uomo-IA in ambienti fisici. Dati DORI: https://huggingface.co/datasets/appledora/DORI-Benchmark
English
Object orientation understanding represents a fundamental challenge in visual
perception critical for applications like robotic manipulation and augmented
reality. Current vision-language benchmarks fail to isolate this capability,
often conflating it with positional relationships and general scene
understanding. We introduce DORI (Discriminative Orientation Reasoning
Intelligence), a comprehensive benchmark establishing object orientation
perception as a primary evaluation target. DORI assesses four dimensions of
orientation comprehension: frontal alignment, rotational transformations,
relative directional relationships, and canonical orientation understanding.
Through carefully curated tasks from 11 datasets spanning 67 object categories
across synthetic and real-world scenarios, DORI provides insights on how
multi-modal systems understand object orientations. Our evaluation of 15
state-of-the-art vision-language models reveals critical limitations: even the
best models achieve only 54.2% accuracy on coarse tasks and 33.0% on granular
orientation judgments, with performance deteriorating for tasks requiring
reference frame shifts or compound rotations. These findings demonstrate the
need for dedicated orientation representation mechanisms, as models show
systematic inability to perform precise angular estimations, track orientation
changes across viewpoints, and understand compound rotations - suggesting
limitations in their internal 3D spatial representations. As the first
diagnostic framework specifically designed for orientation awareness in
multimodal systems, DORI offers implications for improving robotic control, 3D
scene reconstruction, and human-AI interaction in physical environments. DORI
data: https://huggingface.co/datasets/appledora/DORI-Benchmark