Rechts herum? Entschlüsselung des Orientierungsverständnisses in MLLMs durch fein abgestimmte Multi-Achsen-Wahrnehmungsaufgaben
Right Side Up? Disentangling Orientation Understanding in MLLMs with Fine-grained Multi-axis Perception Tasks
May 27, 2025
Autoren: Keanu Nichols, Nazia Tasnim, Yan Yuting, Nicholas Ikechukwu, Elva Zou, Deepti Ghadiyaram, Bryan Plummer
cs.AI
Zusammenfassung
Das Verständnis der Objektausrichtung stellt eine grundlegende Herausforderung in der visuellen Wahrnehmung dar, die für Anwendungen wie die robotergestützte Manipulation und erweiterte Realität entscheidend ist. Aktuelle Vision-Sprache-Benchmarks isolieren diese Fähigkeit nicht ausreichend, da sie sie oft mit Positionsbeziehungen und allgemeinem Szenenverständnis vermischen. Wir stellen DORI (Discriminative Orientation Reasoning Intelligence) vor, einen umfassenden Benchmark, der die Wahrnehmung der Objektausrichtung als primäres Bewertungsziel etabliert. DORI bewertet vier Dimensionen der Orientierungserfassung: frontale Ausrichtung, Rotationsumwandlungen, relative Richtungsbeziehungen und das Verständnis der kanonischen Ausrichtung. Durch sorgfältig kuratierte Aufgaben aus 11 Datensätzen, die 67 Objektkategorien in synthetischen und realen Szenarien umfassen, bietet DORI Einblicke, wie multimodale Systeme Objektausrichtungen verstehen. Unsere Bewertung von 15 modernsten Vision-Sprache-Modellen zeigt kritische Einschränkungen: Selbst die besten Modelle erreichen nur 54,2 % Genauigkeit bei groben Aufgaben und 33,0 % bei detaillierten Orientierungsbeurteilungen, wobei die Leistung bei Aufgaben, die Referenzrahmenwechsel oder zusammengesetzte Rotationen erfordern, abnimmt. Diese Ergebnisse verdeutlichen die Notwendigkeit spezieller Mechanismen zur Darstellung der Ausrichtung, da Modelle systematisch unfähig sind, präzise Winkelabschätzungen durchzuführen, Orientierungsänderungen über verschiedene Blickwinkel hinweg zu verfolgen und zusammengesetzte Rotationen zu verstehen – was auf Einschränkungen in ihren internen 3D-Raumdarstellungen hindeutet. Als erstes Diagnoseframework, das speziell für das Bewusstsein der Ausrichtung in multimodalen Systemen entwickelt wurde, bietet DORI Implikationen für die Verbesserung der robotergestützten Steuerung, der 3D-Szenenrekonstruktion und der Mensch-KI-Interaktion in physischen Umgebungen. DORI-Daten: https://huggingface.co/datasets/appledora/DORI-Benchmark
English
Object orientation understanding represents a fundamental challenge in visual
perception critical for applications like robotic manipulation and augmented
reality. Current vision-language benchmarks fail to isolate this capability,
often conflating it with positional relationships and general scene
understanding. We introduce DORI (Discriminative Orientation Reasoning
Intelligence), a comprehensive benchmark establishing object orientation
perception as a primary evaluation target. DORI assesses four dimensions of
orientation comprehension: frontal alignment, rotational transformations,
relative directional relationships, and canonical orientation understanding.
Through carefully curated tasks from 11 datasets spanning 67 object categories
across synthetic and real-world scenarios, DORI provides insights on how
multi-modal systems understand object orientations. Our evaluation of 15
state-of-the-art vision-language models reveals critical limitations: even the
best models achieve only 54.2% accuracy on coarse tasks and 33.0% on granular
orientation judgments, with performance deteriorating for tasks requiring
reference frame shifts or compound rotations. These findings demonstrate the
need for dedicated orientation representation mechanisms, as models show
systematic inability to perform precise angular estimations, track orientation
changes across viewpoints, and understand compound rotations - suggesting
limitations in their internal 3D spatial representations. As the first
diagnostic framework specifically designed for orientation awareness in
multimodal systems, DORI offers implications for improving robotic control, 3D
scene reconstruction, and human-AI interaction in physical environments. DORI
data: https://huggingface.co/datasets/appledora/DORI-BenchmarkSummary
AI-Generated Summary