De Ponta-Cabeça? Desvendando a Compreensão de Orientação em MLLMs com Tarefas de Percepção Multi-eixo de Alta Granularidade
Right Side Up? Disentangling Orientation Understanding in MLLMs with Fine-grained Multi-axis Perception Tasks
May 27, 2025
Autores: Keanu Nichols, Nazia Tasnim, Yan Yuting, Nicholas Ikechukwu, Elva Zou, Deepti Ghadiyaram, Bryan Plummer
cs.AI
Resumo
A compreensão da orientação de objetos representa um desafio fundamental na percepção visual, crucial para aplicações como manipulação robótica e realidade aumentada. Os benchmarks atuais de visão e linguagem falham em isolar essa capacidade, frequentemente confundindo-a com relações posicionais e compreensão geral da cena. Apresentamos o DORI (Discriminative Orientation Reasoning Intelligence), um benchmark abrangente que estabelece a percepção da orientação de objetos como um alvo primário de avaliação. O DORI avalia quatro dimensões da compreensão de orientação: alinhamento frontal, transformações rotacionais, relações direcionais relativas e compreensão da orientação canônica. Por meio de tarefas cuidadosamente selecionadas de 11 conjuntos de dados abrangendo 67 categorias de objetos em cenários sintéticos e do mundo real, o DORI oferece insights sobre como sistemas multimodais compreendem as orientações dos objetos. Nossa avaliação de 15 modelos estado da arte de visão e linguagem revela limitações críticas: mesmo os melhores modelos alcançam apenas 54,2% de precisão em tarefas grosseiras e 33,0% em julgamentos granulares de orientação, com o desempenho deteriorando-se para tarefas que exigem mudanças de referencial ou rotações compostas. Esses achados demonstram a necessidade de mecanismos dedicados de representação de orientação, já que os modelos mostram incapacidade sistemática de realizar estimativas angulares precisas, rastrear mudanças de orientação entre diferentes pontos de vista e compreender rotações compostas – sugerindo limitações em suas representações espaciais 3D internas. Como o primeiro framework diagnóstico especificamente projetado para consciência de orientação em sistemas multimodais, o DORI oferece implicações para melhorar o controle robótico, a reconstrução de cenas 3D e a interação humano-IA em ambientes físicos. Dados do DORI: https://huggingface.co/datasets/appledora/DORI-Benchmark
English
Object orientation understanding represents a fundamental challenge in visual
perception critical for applications like robotic manipulation and augmented
reality. Current vision-language benchmarks fail to isolate this capability,
often conflating it with positional relationships and general scene
understanding. We introduce DORI (Discriminative Orientation Reasoning
Intelligence), a comprehensive benchmark establishing object orientation
perception as a primary evaluation target. DORI assesses four dimensions of
orientation comprehension: frontal alignment, rotational transformations,
relative directional relationships, and canonical orientation understanding.
Through carefully curated tasks from 11 datasets spanning 67 object categories
across synthetic and real-world scenarios, DORI provides insights on how
multi-modal systems understand object orientations. Our evaluation of 15
state-of-the-art vision-language models reveals critical limitations: even the
best models achieve only 54.2% accuracy on coarse tasks and 33.0% on granular
orientation judgments, with performance deteriorating for tasks requiring
reference frame shifts or compound rotations. These findings demonstrate the
need for dedicated orientation representation mechanisms, as models show
systematic inability to perform precise angular estimations, track orientation
changes across viewpoints, and understand compound rotations - suggesting
limitations in their internal 3D spatial representations. As the first
diagnostic framework specifically designed for orientation awareness in
multimodal systems, DORI offers implications for improving robotic control, 3D
scene reconstruction, and human-AI interaction in physical environments. DORI
data: https://huggingface.co/datasets/appledora/DORI-Benchmark