PointArena: Investigando a Fundamentação Multimodal por Meio de Apontamento Guiado por Linguagem

Resumo

O apontar serve como um mecanismo fundamental e intuitivo para ancorar a linguagem em contextos visuais, com aplicações que abrangem robótica, tecnologias assistivas e sistemas de IA interativos. Embora modelos multimodais recentes tenham começado a oferecer suporte a capacidades de apontar, os benchmarks existentes geralmente se concentram apenas em tarefas de localização referencial de objetos. Apresentamos o PointArena, uma plataforma abrangente para avaliar o apontar multimodal em diversos cenários de raciocínio. O PointArena é composto por três componentes: (1) Point-Bench, um conjunto de dados curado contendo aproximadamente 1.000 tarefas de apontar em cinco categorias de raciocínio; (2) Point-Battle, uma arena interativa baseada na web que facilita comparações cegas e pareadas de modelos, já tendo coletado mais de 4.500 votos anônimos; e (3) Point-Act, um sistema robótico de manipulação do mundo real que permite aos usuários avaliar diretamente as capacidades de apontar de modelos multimodais em cenários práticos. Realizamos avaliações extensas de modelos multimodais de código aberto e proprietários de última geração. Os resultados indicam que o Molmo-72B supera consistentemente outros modelos, embora os modelos proprietários estejam demonstrando desempenho cada vez mais comparável. Além disso, descobrimos que o treinamento supervisionado especificamente voltado para tarefas de apontar melhora significativamente o desempenho dos modelos. Em nossa pipeline de avaliação em múltiplas etapas, também observamos fortes correlações, destacando o papel crítico das capacidades precisas de apontar para permitir que modelos multimodais conectem efetivamente o raciocínio abstrato com ações concretas do mundo real. Página do projeto: https://pointarena.github.io/

English

Pointing serves as a fundamental and intuitive mechanism for grounding language within visual contexts, with applications spanning robotics, assistive technologies, and interactive AI systems. While recent multimodal models have started to support pointing capabilities, existing benchmarks typically focus only on referential object localization tasks. We introduce PointArena, a comprehensive platform for evaluating multimodal pointing across diverse reasoning scenarios. PointArena comprises three components: (1) Point-Bench, a curated dataset containing approximately 1,000 pointing tasks across five reasoning categories; (2) Point-Battle, an interactive, web-based arena facilitating blind, pairwise model comparisons, which has already gathered over 4,500 anonymized votes; and (3) Point-Act, a real-world robotic manipulation system allowing users to directly evaluate multimodal model pointing capabilities in practical settings. We conducted extensive evaluations of both state-of-the-art open-source and proprietary multimodal models. Results indicate that Molmo-72B consistently outperforms other models, though proprietary models increasingly demonstrate comparable performance. Additionally, we find that supervised training specifically targeting pointing tasks significantly enhances model performance. Across our multi-stage evaluation pipeline, we also observe strong correlations, underscoring the critical role of precise pointing capabilities in enabling multimodal models to effectively bridge abstract reasoning with concrete, real-world actions. Project page: https://pointarena.github.io/

PointArena: Investigando a Fundamentação Multimodal por Meio de Apontamento Guiado por Linguagem

PointArena: Probing Multimodal Grounding Through Language-Guided Pointing

Resumo

Support