ChatPaper.aiChatPaper

똑바로 세워졌나? 다축 세부 인지 과제를 통해 MLLM의 방향 이해 능력 분석

Right Side Up? Disentangling Orientation Understanding in MLLMs with Fine-grained Multi-axis Perception Tasks

May 27, 2025
저자: Keanu Nichols, Nazia Tasnim, Yan Yuting, Nicholas Ikechukwu, Elva Zou, Deepti Ghadiyaram, Bryan Plummer
cs.AI

초록

객체 방향성 이해는 로봇 조작과 증강 현실과 같은 응용 분야에서 중요한 시각 인식의 근본적인 과제를 나타냅니다. 현재의 시각-언어 벤치마크는 이 능력을 분리하지 못하고, 종종 위치 관계와 일반적인 장면 이해와 혼동합니다. 우리는 DORI(Discriminative Orientation Reasoning Intelligence)를 소개하며, 이는 객체 방향성 인식을 주요 평가 대상으로 설정한 포괄적인 벤치마크입니다. DORI는 방향성 이해의 네 가지 차원을 평가합니다: 정면 정렬, 회전 변환, 상대적 방향 관계, 그리고 표준 방향성 이해. 합성 및 실제 시나리오에 걸친 67개 객체 카테고리에서 선별된 11개 데이터셋을 통해, DORI는 다중 모달 시스템이 객체 방향성을 어떻게 이해하는지에 대한 통찰을 제공합니다. 15개의 최신 시각-언어 모델을 평가한 결과, 중요한 한계가 드러났습니다: 가장 우수한 모델조차도 간단한 작업에서 54.2%, 세밀한 방향성 판단에서 33.0%의 정확도를 보였으며, 참조 프레임 전환이나 복합 회전이 필요한 작업에서는 성능이 저하되었습니다. 이러한 결과는 정확한 각도 추정, 시점 간 방향성 변화 추적, 복합 회전 이해에 있어 모델의 체계적인 무능력을 보여주며, 이는 내부 3D 공간 표현의 한계를 시사합니다. 다중 모달 시스템에서 방향성 인식을 위해 특별히 설계된 첫 번째 진단 프레임워크로서, DORI는 로봇 제어, 3D 장면 재구성, 물리적 환경에서의 인간-AI 상호작용 개선에 대한 시사점을 제공합니다. DORI 데이터: https://huggingface.co/datasets/appledora/DORI-Benchmark
English
Object orientation understanding represents a fundamental challenge in visual perception critical for applications like robotic manipulation and augmented reality. Current vision-language benchmarks fail to isolate this capability, often conflating it with positional relationships and general scene understanding. We introduce DORI (Discriminative Orientation Reasoning Intelligence), a comprehensive benchmark establishing object orientation perception as a primary evaluation target. DORI assesses four dimensions of orientation comprehension: frontal alignment, rotational transformations, relative directional relationships, and canonical orientation understanding. Through carefully curated tasks from 11 datasets spanning 67 object categories across synthetic and real-world scenarios, DORI provides insights on how multi-modal systems understand object orientations. Our evaluation of 15 state-of-the-art vision-language models reveals critical limitations: even the best models achieve only 54.2% accuracy on coarse tasks and 33.0% on granular orientation judgments, with performance deteriorating for tasks requiring reference frame shifts or compound rotations. These findings demonstrate the need for dedicated orientation representation mechanisms, as models show systematic inability to perform precise angular estimations, track orientation changes across viewpoints, and understand compound rotations - suggesting limitations in their internal 3D spatial representations. As the first diagnostic framework specifically designed for orientation awareness in multimodal systems, DORI offers implications for improving robotic control, 3D scene reconstruction, and human-AI interaction in physical environments. DORI data: https://huggingface.co/datasets/appledora/DORI-Benchmark
PDF32May 29, 2025