Правильно ли вверх? Разделение понимания ориентации в MLLM с помощью задач тонкого восприятия по нескольким осям
Right Side Up? Disentangling Orientation Understanding in MLLMs with Fine-grained Multi-axis Perception Tasks
May 27, 2025
Авторы: Keanu Nichols, Nazia Tasnim, Yan Yuting, Nicholas Ikechukwu, Elva Zou, Deepti Ghadiyaram, Bryan Plummer
cs.AI
Аннотация
Понимание ориентации объектов представляет собой фундаментальную задачу в области визуального восприятия, критически важную для таких приложений, как роботизированное манипулирование и дополненная реальность. Современные бенчмарки, объединяющие зрение и язык, не способны изолировать эту способность, часто смешивая её с позиционными отношениями и общим пониманием сцены. Мы представляем DORI (Discriminative Orientation Reasoning Intelligence) — комплексный бенчмарк, который устанавливает восприятие ориентации объектов в качестве основной цели оценки. DORI оценивает четыре аспекта понимания ориентации: фронтальное выравнивание, вращательные преобразования, относительные направленные отношения и понимание канонической ориентации. С помощью тщательно отобранных задач из 11 наборов данных, охватывающих 67 категорий объектов в синтетических и реальных сценариях, DORI предоставляет insights о том, как мультимодальные системы понимают ориентацию объектов. Наша оценка 15 современных моделей, объединяющих зрение и язык, выявляет серьёзные ограничения: даже лучшие модели достигают точности всего 54,2% на простых задачах и 33,0% на задачах, требующих детального анализа ориентации, причём производительность ухудшается для задач, связанных с изменением системы отсчёта или сложными вращениями. Эти результаты демонстрируют необходимость разработки специализированных механизмов представления ориентации, так как модели систематически не способны выполнять точные угловые оценки, отслеживать изменения ориентации между точками зрения и понимать сложные вращения — что указывает на ограничения их внутренних 3D пространственных представлений. Будучи первой диагностической платформой, специально разработанной для оценки ориентационной осведомлённости в мультимодальных системах, DORI предлагает перспективы для улучшения управления роботами, реконструкции 3D сцен и взаимодействия человека с ИИ в физических средах. Данные DORI доступны по ссылке: https://huggingface.co/datasets/appledora/DORI-Benchmark.
English
Object orientation understanding represents a fundamental challenge in visual
perception critical for applications like robotic manipulation and augmented
reality. Current vision-language benchmarks fail to isolate this capability,
often conflating it with positional relationships and general scene
understanding. We introduce DORI (Discriminative Orientation Reasoning
Intelligence), a comprehensive benchmark establishing object orientation
perception as a primary evaluation target. DORI assesses four dimensions of
orientation comprehension: frontal alignment, rotational transformations,
relative directional relationships, and canonical orientation understanding.
Through carefully curated tasks from 11 datasets spanning 67 object categories
across synthetic and real-world scenarios, DORI provides insights on how
multi-modal systems understand object orientations. Our evaluation of 15
state-of-the-art vision-language models reveals critical limitations: even the
best models achieve only 54.2% accuracy on coarse tasks and 33.0% on granular
orientation judgments, with performance deteriorating for tasks requiring
reference frame shifts or compound rotations. These findings demonstrate the
need for dedicated orientation representation mechanisms, as models show
systematic inability to perform precise angular estimations, track orientation
changes across viewpoints, and understand compound rotations - suggesting
limitations in their internal 3D spatial representations. As the first
diagnostic framework specifically designed for orientation awareness in
multimodal systems, DORI offers implications for improving robotic control, 3D
scene reconstruction, and human-AI interaction in physical environments. DORI
data: https://huggingface.co/datasets/appledora/DORI-BenchmarkSummary
AI-Generated Summary