PointArena: Investigando a Fundamentação Multimodal por Meio de Apontamento Guiado por Linguagem
PointArena: Probing Multimodal Grounding Through Language-Guided Pointing
May 15, 2025
Autores: Long Cheng, Jiafei Duan, Yi Ru Wang, Haoquan Fang, Boyang Li, Yushan Huang, Elvis Wang, Ainaz Eftekhar, Jason Lee, Wentao Yuan, Rose Hendrix, Noah A. Smith, Fei Xia, Dieter Fox, Ranjay Krishna
cs.AI
Resumo
O apontar serve como um mecanismo fundamental e intuitivo para ancorar a linguagem em contextos visuais, com aplicações que abrangem robótica, tecnologias assistivas e sistemas de IA interativos. Embora modelos multimodais recentes tenham começado a oferecer suporte a capacidades de apontar, os benchmarks existentes geralmente se concentram apenas em tarefas de localização referencial de objetos. Apresentamos o PointArena, uma plataforma abrangente para avaliar o apontar multimodal em diversos cenários de raciocínio. O PointArena é composto por três componentes: (1) Point-Bench, um conjunto de dados curado contendo aproximadamente 1.000 tarefas de apontar em cinco categorias de raciocínio; (2) Point-Battle, uma arena interativa baseada na web que facilita comparações cegas e pareadas de modelos, já tendo coletado mais de 4.500 votos anônimos; e (3) Point-Act, um sistema robótico de manipulação do mundo real que permite aos usuários avaliar diretamente as capacidades de apontar de modelos multimodais em cenários práticos. Realizamos avaliações extensas de modelos multimodais de código aberto e proprietários de última geração. Os resultados indicam que o Molmo-72B supera consistentemente outros modelos, embora os modelos proprietários estejam demonstrando desempenho cada vez mais comparável. Além disso, descobrimos que o treinamento supervisionado especificamente voltado para tarefas de apontar melhora significativamente o desempenho dos modelos. Em nossa pipeline de avaliação em múltiplas etapas, também observamos fortes correlações, destacando o papel crítico das capacidades precisas de apontar para permitir que modelos multimodais conectem efetivamente o raciocínio abstrato com ações concretas do mundo real. Página do projeto: https://pointarena.github.io/
English
Pointing serves as a fundamental and intuitive mechanism for grounding
language within visual contexts, with applications spanning robotics, assistive
technologies, and interactive AI systems. While recent multimodal models have
started to support pointing capabilities, existing benchmarks typically focus
only on referential object localization tasks. We introduce PointArena, a
comprehensive platform for evaluating multimodal pointing across diverse
reasoning scenarios. PointArena comprises three components: (1) Point-Bench, a
curated dataset containing approximately 1,000 pointing tasks across five
reasoning categories; (2) Point-Battle, an interactive, web-based arena
facilitating blind, pairwise model comparisons, which has already gathered over
4,500 anonymized votes; and (3) Point-Act, a real-world robotic manipulation
system allowing users to directly evaluate multimodal model pointing
capabilities in practical settings. We conducted extensive evaluations of both
state-of-the-art open-source and proprietary multimodal models. Results
indicate that Molmo-72B consistently outperforms other models, though
proprietary models increasingly demonstrate comparable performance.
Additionally, we find that supervised training specifically targeting pointing
tasks significantly enhances model performance. Across our multi-stage
evaluation pipeline, we also observe strong correlations, underscoring the
critical role of precise pointing capabilities in enabling multimodal models to
effectively bridge abstract reasoning with concrete, real-world actions.
Project page: https://pointarena.github.io/