Rechts herum? Entschlüsselung des Orientierungsverständnisses in MLLMs durch fein abgestimmte Multi-Achsen-Wahrnehmungsaufgaben

papers.abstract

Das Verständnis der Objektausrichtung stellt eine grundlegende Herausforderung in der visuellen Wahrnehmung dar, die für Anwendungen wie die robotergestützte Manipulation und erweiterte Realität entscheidend ist. Aktuelle Vision-Sprache-Benchmarks isolieren diese Fähigkeit nicht ausreichend, da sie sie oft mit Positionsbeziehungen und allgemeinem Szenenverständnis vermischen. Wir stellen DORI (Discriminative Orientation Reasoning Intelligence) vor, einen umfassenden Benchmark, der die Wahrnehmung der Objektausrichtung als primäres Bewertungsziel etabliert. DORI bewertet vier Dimensionen der Orientierungserfassung: frontale Ausrichtung, Rotationsumwandlungen, relative Richtungsbeziehungen und das Verständnis der kanonischen Ausrichtung. Durch sorgfältig kuratierte Aufgaben aus 11 Datensätzen, die 67 Objektkategorien in synthetischen und realen Szenarien umfassen, bietet DORI Einblicke, wie multimodale Systeme Objektausrichtungen verstehen. Unsere Bewertung von 15 modernsten Vision-Sprache-Modellen zeigt kritische Einschränkungen: Selbst die besten Modelle erreichen nur 54,2 % Genauigkeit bei groben Aufgaben und 33,0 % bei detaillierten Orientierungsbeurteilungen, wobei die Leistung bei Aufgaben, die Referenzrahmenwechsel oder zusammengesetzte Rotationen erfordern, abnimmt. Diese Ergebnisse verdeutlichen die Notwendigkeit spezieller Mechanismen zur Darstellung der Ausrichtung, da Modelle systematisch unfähig sind, präzise Winkelabschätzungen durchzuführen, Orientierungsänderungen über verschiedene Blickwinkel hinweg zu verfolgen und zusammengesetzte Rotationen zu verstehen – was auf Einschränkungen in ihren internen 3D-Raumdarstellungen hindeutet. Als erstes Diagnoseframework, das speziell für das Bewusstsein der Ausrichtung in multimodalen Systemen entwickelt wurde, bietet DORI Implikationen für die Verbesserung der robotergestützten Steuerung, der 3D-Szenenrekonstruktion und der Mensch-KI-Interaktion in physischen Umgebungen. DORI-Daten: https://huggingface.co/datasets/appledora/DORI-Benchmark

English

Object orientation understanding represents a fundamental challenge in visual perception critical for applications like robotic manipulation and augmented reality. Current vision-language benchmarks fail to isolate this capability, often conflating it with positional relationships and general scene understanding. We introduce DORI (Discriminative Orientation Reasoning Intelligence), a comprehensive benchmark establishing object orientation perception as a primary evaluation target. DORI assesses four dimensions of orientation comprehension: frontal alignment, rotational transformations, relative directional relationships, and canonical orientation understanding. Through carefully curated tasks from 11 datasets spanning 67 object categories across synthetic and real-world scenarios, DORI provides insights on how multi-modal systems understand object orientations. Our evaluation of 15 state-of-the-art vision-language models reveals critical limitations: even the best models achieve only 54.2% accuracy on coarse tasks and 33.0% on granular orientation judgments, with performance deteriorating for tasks requiring reference frame shifts or compound rotations. These findings demonstrate the need for dedicated orientation representation mechanisms, as models show systematic inability to perform precise angular estimations, track orientation changes across viewpoints, and understand compound rotations - suggesting limitations in their internal 3D spatial representations. As the first diagnostic framework specifically designed for orientation awareness in multimodal systems, DORI offers implications for improving robotic control, 3D scene reconstruction, and human-AI interaction in physical environments. DORI data: https://huggingface.co/datasets/appledora/DORI-Benchmark

Rechts herum? Entschlüsselung des Orientierungsverständnisses in MLLMs durch fein abgestimmte Multi-Achsen-Wahrnehmungsaufgaben

Right Side Up? Disentangling Orientation Understanding in MLLMs with Fine-grained Multi-axis Perception Tasks

papers.abstract

Support