ChatPaper.aiChatPaper

PointArena: Esplorazione del Grounding Multimodale Attraverso il Puntamento Guidato dal Linguaggio

PointArena: Probing Multimodal Grounding Through Language-Guided Pointing

May 15, 2025
Autori: Long Cheng, Jiafei Duan, Yi Ru Wang, Haoquan Fang, Boyang Li, Yushan Huang, Elvis Wang, Ainaz Eftekhar, Jason Lee, Wentao Yuan, Rose Hendrix, Noah A. Smith, Fei Xia, Dieter Fox, Ranjay Krishna
cs.AI

Abstract

Il pointing rappresenta un meccanismo fondamentale e intuitivo per ancorare il linguaggio ai contesti visivi, con applicazioni che spaziano dalla robotica alle tecnologie assistive e ai sistemi di IA interattivi. Sebbene i recenti modelli multimodali abbiano iniziato a supportare capacità di pointing, i benchmark esistenti si concentrano tipicamente solo su compiti di localizzazione referenziale di oggetti. Introduciamo PointArena, una piattaforma completa per valutare il pointing multimodale in diversi scenari di ragionamento. PointArena comprende tre componenti: (1) Point-Bench, un dataset curato contenente circa 1.000 task di pointing suddivisi in cinque categorie di ragionamento; (2) Point-Battle, un'arena interattiva basata sul web che facilita confronti ciechi e a coppie tra modelli, che ha già raccolto oltre 4.500 voti anonimi; e (3) Point-Act, un sistema di manipolazione robotica nel mondo reale che consente agli utenti di valutare direttamente le capacità di pointing dei modelli multimodali in contesti pratici. Abbiamo condotto valutazioni estese sia sui modelli multimodali open-source all'avanguardia che su quelli proprietari. I risultati indicano che Molmo-72B supera costantemente gli altri modelli, sebbene i modelli proprietari dimostrino prestazioni sempre più comparabili. Inoltre, abbiamo riscontrato che l'addestramento supervisionato specificamente mirato ai task di pointing migliora significativamente le prestazioni del modello. Attraverso la nostra pipeline di valutazione multi-stadio, abbiamo anche osservato forti correlazioni, sottolineando il ruolo cruciale delle capacità di pointing precise nel consentire ai modelli multimodali di collegare efficacemente il ragionamento astratto con azioni concrete nel mondo reale. Pagina del progetto: https://pointarena.github.io/
English
Pointing serves as a fundamental and intuitive mechanism for grounding language within visual contexts, with applications spanning robotics, assistive technologies, and interactive AI systems. While recent multimodal models have started to support pointing capabilities, existing benchmarks typically focus only on referential object localization tasks. We introduce PointArena, a comprehensive platform for evaluating multimodal pointing across diverse reasoning scenarios. PointArena comprises three components: (1) Point-Bench, a curated dataset containing approximately 1,000 pointing tasks across five reasoning categories; (2) Point-Battle, an interactive, web-based arena facilitating blind, pairwise model comparisons, which has already gathered over 4,500 anonymized votes; and (3) Point-Act, a real-world robotic manipulation system allowing users to directly evaluate multimodal model pointing capabilities in practical settings. We conducted extensive evaluations of both state-of-the-art open-source and proprietary multimodal models. Results indicate that Molmo-72B consistently outperforms other models, though proprietary models increasingly demonstrate comparable performance. Additionally, we find that supervised training specifically targeting pointing tasks significantly enhances model performance. Across our multi-stage evaluation pipeline, we also observe strong correlations, underscoring the critical role of precise pointing capabilities in enabling multimodal models to effectively bridge abstract reasoning with concrete, real-world actions. Project page: https://pointarena.github.io/
PDF122May 16, 2025