ChatPaper.aiChatPaper

다른 관점에서 보기: MLLM의 다중 뷰 이해 능력 평가

Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs

April 21, 2025
저자: Chun-Hsiao Yeh, Chenyu Wang, Shengbang Tong, Ta-Ying Cheng, Rouyu Wang, Tianzhe Chu, Yuexiang Zhai, Yubei Chen, Shenghua Gao, Yi Ma
cs.AI

초록

다중 시점 이해, 즉 다양한 시점에서의 시각 정보를 조화롭게 통합하여 효과적인 탐색, 조작 및 3D 장면 이해를 가능하게 하는 능력은, 구현체 에이전트로 사용될 다중 모달 대형 언어 모델(MLLMs)의 근본적인 과제입니다. 최근 MLLMs는 고차원적 추론과 계획에서 인상적인 발전을 보여주었지만, 다중 시점 기하학적 일관성과 시점 간 대응에 직면할 때는 종종 부족함을 드러냅니다. MLLMs의 다중 시점 장면 추론 능력을 종합적으로 평가하기 위해, 우리는 90개의 다양한 실제 장면에서 인간이 주의 깊게 주석을 단 2,100개 이상의 다중 시점 질문-답변 쌍으로 구성된 All-Angles Bench 벤치마크를 제안합니다. 우리의 여섯 가지 과제(계수, 속성 식별, 상대적 거리, 상대적 방향, 객체 조작, 카메라 포즈 추정)는 모델의 기하학적 대응 능력과 시점 간 정보를 일관되게 정렬하는 능력을 특별히 테스트합니다. Gemini-2.0-Flash, Claude-3.7-Sonnet, GPT-4o를 포함한 27개의 대표적인 MLLMs를 인간 평가자와 비교한 광범위한 실험은 상당한 성능 격차를 보여주며, 현재의 MLLMs가 인간 수준의 숙련도에 이르기에는 아직 멀었음을 나타냅니다. 심층 분석을 통해, 우리는 MLLMs가 특히 두 가지 측면에서 부진한 성능을 보임을 확인했습니다: (1) 부분적으로 가려진 시점에 대한 시점 간 대응, (2) 대략적인 카메라 포즈 설정. 이러한 발견은 더 강력한 다중 시점 인식을 내장한 도메인 특화적 개선 또는 모듈의 필요성을 강조합니다. 우리는 All-Angles Bench가 MLLMs와 인간 수준의 다중 시점 이해 사이의 격차를 줄이는 데 유용한 통찰을 제공하고 기여할 것이라 믿습니다. 프로젝트와 벤치마크는 https://danielchyeh.github.io/All-Angles-Bench/에서 공개적으로 이용 가능합니다.
English
Multi-view understanding, the ability to reconcile visual information across diverse viewpoints for effective navigation, manipulation, and 3D scene comprehension, is a fundamental challenge in Multi-Modal Large Language Models (MLLMs) to be used as embodied agents. While recent MLLMs have shown impressive advances in high-level reasoning and planning, they frequently fall short when confronted with multi-view geometric consistency and cross-view correspondence. To comprehensively evaluate the challenges of MLLMs in multi-view scene reasoning, we propose All-Angles Bench, a benchmark of over 2,100 human carefully annotated multi-view question-answer pairs across 90 diverse real-world scenes. Our six tasks (counting, attribute identification, relative distance, relative direction, object manipulation, and camera pose estimation) specifically test model's geometric correspondence and the capacity to align information consistently across views. Our extensive experiments, benchmark on 27 representative MLLMs including Gemini-2.0-Flash, Claude-3.7-Sonnet, and GPT-4o against human evaluators reveals a substantial performance gap, indicating that current MLLMs remain far from human-level proficiency. Through in-depth analysis, we show that MLLMs are particularly underperforming under two aspects: (1) cross-view correspondence for partially occluded views and (2) establishing the coarse camera poses. These findings highlight the necessity of domain-specific refinements or modules that embed stronger multi-view awareness. We believe that our All-Angles Bench offers valuable insights and contribute to bridging the gap between MLLMs and human-level multi-view understanding. The project and benchmark are publicly available at https://danielchyeh.github.io/All-Angles-Bench/.

Summary

AI-Generated Summary

PDF222April 22, 2025