PointArena: 언어 기반 포인팅을 통한 다중 모달 그라운딩 탐구
PointArena: Probing Multimodal Grounding Through Language-Guided Pointing
May 15, 2025
저자: Long Cheng, Jiafei Duan, Yi Ru Wang, Haoquan Fang, Boyang Li, Yushan Huang, Elvis Wang, Ainaz Eftekhar, Jason Lee, Wentao Yuan, Rose Hendrix, Noah A. Smith, Fei Xia, Dieter Fox, Ranjay Krishna
cs.AI
초록
포인팅은 언어를 시각적 맥락에 기반시키기 위한 기본적이고 직관적인 메커니즘으로, 로보틱스, 보조 기술, 그리고 인터랙티브 AI 시스템에 걸쳐 다양한 응용 분야를 가지고 있습니다. 최근의 멀티모달 모델들이 포인팅 기능을 지원하기 시작했지만, 기존 벤치마크들은 일반적으로 참조적 객체 위치 지정 작업에만 초점을 맞추고 있습니다. 우리는 다양한 추론 시나리오에서 멀티모달 포인팅을 평가하기 위한 포괄적인 플랫폼인 PointArena를 소개합니다. PointArena는 세 가지 구성 요소로 이루어져 있습니다: (1) Point-Bench, 다섯 가지 추론 범주에 걸쳐 약 1,000개의 포인팅 작업을 포함한 큐레이션된 데이터셋; (2) Point-Battle, 익명의 쌍별 모델 비교를 용이하게 하는 인터랙티브 웹 기반 아레나로, 이미 4,500개 이상의 익명 투표를 수집함; (3) Point-Act, 사용자가 실질적인 환경에서 멀티모달 모델의 포인팅 능력을 직접 평가할 수 있는 실제 로봇 조작 시스템. 우리는 최신 오픈소스 및 독점 멀티모달 모델에 대한 광범위한 평가를 수행했습니다. 결과는 Molmo-72B가 다른 모델들을 꾸준히 능가하지만, 독점 모델들도 점점 더 비슷한 성능을 보여주고 있음을 나타냅니다. 또한, 포인팅 작업을 특별히 대상으로 한 지도 학습이 모델 성능을 크게 향상시킨다는 것을 발견했습니다. 우리의 다단계 평가 파이프라인 전반에 걸쳐, 정확한 포인팅 능력이 멀티모달 모델이 추상적 추론과 구체적인 실제 행동을 효과적으로 연결하는 데 중요한 역할을 한다는 강한 상관관계를 관찰했습니다. 프로젝트 페이지: https://pointarena.github.io/
English
Pointing serves as a fundamental and intuitive mechanism for grounding
language within visual contexts, with applications spanning robotics, assistive
technologies, and interactive AI systems. While recent multimodal models have
started to support pointing capabilities, existing benchmarks typically focus
only on referential object localization tasks. We introduce PointArena, a
comprehensive platform for evaluating multimodal pointing across diverse
reasoning scenarios. PointArena comprises three components: (1) Point-Bench, a
curated dataset containing approximately 1,000 pointing tasks across five
reasoning categories; (2) Point-Battle, an interactive, web-based arena
facilitating blind, pairwise model comparisons, which has already gathered over
4,500 anonymized votes; and (3) Point-Act, a real-world robotic manipulation
system allowing users to directly evaluate multimodal model pointing
capabilities in practical settings. We conducted extensive evaluations of both
state-of-the-art open-source and proprietary multimodal models. Results
indicate that Molmo-72B consistently outperforms other models, though
proprietary models increasingly demonstrate comparable performance.
Additionally, we find that supervised training specifically targeting pointing
tasks significantly enhances model performance. Across our multi-stage
evaluation pipeline, we also observe strong correlations, underscoring the
critical role of precise pointing capabilities in enabling multimodal models to
effectively bridge abstract reasoning with concrete, real-world actions.
Project page: https://pointarena.github.io/Summary
AI-Generated Summary