¿Del lado correcto? Desentrañando la comprensión de la orientación en MLLMs mediante tareas de percepción multi-eje de grano fino
Right Side Up? Disentangling Orientation Understanding in MLLMs with Fine-grained Multi-axis Perception Tasks
May 27, 2025
Autores: Keanu Nichols, Nazia Tasnim, Yan Yuting, Nicholas Ikechukwu, Elva Zou, Deepti Ghadiyaram, Bryan Plummer
cs.AI
Resumen
La comprensión de la orientación de objetos representa un desafío fundamental en la percepción visual, crucial para aplicaciones como la manipulación robótica y la realidad aumentada. Los actuales puntos de referencia en visión y lenguaje no logran aislar esta capacidad, confundiéndola frecuentemente con relaciones posicionales y la comprensión general de escenas. Presentamos DORI (Discriminative Orientation Reasoning Intelligence), un punto de referencia integral que establece la percepción de la orientación de objetos como un objetivo primario de evaluación. DORI evalúa cuatro dimensiones de la comprensión de la orientación: alineación frontal, transformaciones rotacionales, relaciones direccionales relativas y comprensión de la orientación canónica. A través de tareas cuidadosamente seleccionadas de 11 conjuntos de datos que abarcan 67 categorías de objetos en escenarios sintéticos y del mundo real, DORI ofrece insights sobre cómo los sistemas multimodales comprenden las orientaciones de los objetos. Nuestra evaluación de 15 modelos de vanguardia en visión y lenguaje revela limitaciones críticas: incluso los mejores modelos alcanzan solo un 54,2% de precisión en tareas generales y un 33,0% en juicios de orientación granular, con un deterioro del rendimiento en tareas que requieren cambios de marco de referencia o rotaciones compuestas. Estos hallazgos demuestran la necesidad de mecanismos dedicados de representación de la orientación, ya que los modelos muestran una incapacidad sistemática para realizar estimaciones angulares precisas, rastrear cambios de orientación entre puntos de vista y comprender rotaciones compuestas, lo que sugiere limitaciones en sus representaciones espaciales 3D internas. Como el primer marco diagnóstico diseñado específicamente para la conciencia de la orientación en sistemas multimodales, DORI ofrece implicaciones para mejorar el control robótico, la reconstrucción de escenas 3D y la interacción humano-IA en entornos físicos. Datos de DORI: https://huggingface.co/datasets/appledora/DORI-Benchmark
English
Object orientation understanding represents a fundamental challenge in visual
perception critical for applications like robotic manipulation and augmented
reality. Current vision-language benchmarks fail to isolate this capability,
often conflating it with positional relationships and general scene
understanding. We introduce DORI (Discriminative Orientation Reasoning
Intelligence), a comprehensive benchmark establishing object orientation
perception as a primary evaluation target. DORI assesses four dimensions of
orientation comprehension: frontal alignment, rotational transformations,
relative directional relationships, and canonical orientation understanding.
Through carefully curated tasks from 11 datasets spanning 67 object categories
across synthetic and real-world scenarios, DORI provides insights on how
multi-modal systems understand object orientations. Our evaluation of 15
state-of-the-art vision-language models reveals critical limitations: even the
best models achieve only 54.2% accuracy on coarse tasks and 33.0% on granular
orientation judgments, with performance deteriorating for tasks requiring
reference frame shifts or compound rotations. These findings demonstrate the
need for dedicated orientation representation mechanisms, as models show
systematic inability to perform precise angular estimations, track orientation
changes across viewpoints, and understand compound rotations - suggesting
limitations in their internal 3D spatial representations. As the first
diagnostic framework specifically designed for orientation awareness in
multimodal systems, DORI offers implications for improving robotic control, 3D
scene reconstruction, and human-AI interaction in physical environments. DORI
data: https://huggingface.co/datasets/appledora/DORI-BenchmarkSummary
AI-Generated Summary