Diritto verso l'alto? Disentangling la comprensione dell'orientamento nei MLLM con compiti di percezione multi-assiale a grana fine

Abstract

La comprensione dell'orientamento degli oggetti rappresenta una sfida fondamentale nella percezione visiva, cruciale per applicazioni come la manipolazione robotica e la realtà aumentata. Gli attuali benchmark di visione e linguaggio non riescono a isolare questa capacità, spesso confondendola con relazioni posizionali e comprensione generale della scena. Introduciamo DORI (Discriminative Orientation Reasoning Intelligence), un benchmark completo che stabilisce la percezione dell'orientamento degli oggetti come obiettivo primario di valutazione. DORI valuta quattro dimensioni della comprensione dell'orientamento: allineamento frontale, trasformazioni rotazionali, relazioni direzionali relative e comprensione dell'orientamento canonico. Attraverso compiti accuratamente selezionati da 11 dataset che coprono 67 categorie di oggetti in scenari sia sintetici che reali, DORI fornisce approfondimenti su come i sistemi multimodali comprendono l'orientamento degli oggetti. La nostra valutazione di 15 modelli all'avanguardia di visione e linguaggio rivela limitazioni critiche: anche i migliori modelli raggiungono solo il 54,2% di accuratezza su compiti grossolani e il 33,0% su giudizi di orientamento granulari, con prestazioni che peggiorano per compiti che richiedono cambiamenti di frame di riferimento o rotazioni composte. Questi risultati dimostrano la necessità di meccanismi dedicati per la rappresentazione dell'orientamento, poiché i modelli mostrano un'incapacità sistematica di eseguire stime angolari precise, tracciare cambiamenti di orientamento tra punti di vista e comprendere rotazioni composte, suggerendo limitazioni nelle loro rappresentazioni spaziali 3D interne. Come primo framework diagnostico progettato specificamente per la consapevolezza dell'orientamento nei sistemi multimodali, DORI offre implicazioni per migliorare il controllo robotico, la ricostruzione di scene 3D e l'interazione uomo-IA in ambienti fisici. Dati DORI: https://huggingface.co/datasets/appledora/DORI-Benchmark

English

Object orientation understanding represents a fundamental challenge in visual perception critical for applications like robotic manipulation and augmented reality. Current vision-language benchmarks fail to isolate this capability, often conflating it with positional relationships and general scene understanding. We introduce DORI (Discriminative Orientation Reasoning Intelligence), a comprehensive benchmark establishing object orientation perception as a primary evaluation target. DORI assesses four dimensions of orientation comprehension: frontal alignment, rotational transformations, relative directional relationships, and canonical orientation understanding. Through carefully curated tasks from 11 datasets spanning 67 object categories across synthetic and real-world scenarios, DORI provides insights on how multi-modal systems understand object orientations. Our evaluation of 15 state-of-the-art vision-language models reveals critical limitations: even the best models achieve only 54.2% accuracy on coarse tasks and 33.0% on granular orientation judgments, with performance deteriorating for tasks requiring reference frame shifts or compound rotations. These findings demonstrate the need for dedicated orientation representation mechanisms, as models show systematic inability to perform precise angular estimations, track orientation changes across viewpoints, and understand compound rotations - suggesting limitations in their internal 3D spatial representations. As the first diagnostic framework specifically designed for orientation awareness in multimodal systems, DORI offers implications for improving robotic control, 3D scene reconstruction, and human-AI interaction in physical environments. DORI data: https://huggingface.co/datasets/appledora/DORI-Benchmark

Diritto verso l'alto? Disentangling la comprensione dell'orientamento nei MLLM con compiti di percezione multi-assiale a grana fine

Right Side Up? Disentangling Orientation Understanding in MLLMs with Fine-grained Multi-axis Perception Tasks

Abstract

Support