EOC-Bench: I Modelli Multimodali di Linguaggio Possono Identificare, Ricordare e Prevedere Oggetti in un Mondo Egocentrico?
EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World?
June 5, 2025
Autori: Yuqian Yuan, Ronghao Dang, Long Li, Wentong Li, Dian Jiao, Xin Li, Deli Zhao, Fan Wang, Wenqiao Zhang, Jun Xiao, Yueting Zhuang
cs.AI
Abstract
L'emergenza dei modelli linguistici multimodali di grandi dimensioni (MLLMs) ha guidato progressi significativi nelle applicazioni della visione egocentrica. Queste applicazioni richiedono una comprensione persistente e contestuale degli oggetti, poiché gli utenti interagiscono con strumenti in ambienti dinamici e disordinati. Tuttavia, i benchmark esistenti per sistemi embodied si concentrano principalmente sull'esplorazione di scene statiche, enfatizzando l'aspetto e gli attributi spaziali degli oggetti, trascurando la valutazione dei cambiamenti dinamici derivanti dalle interazioni degli utenti. Per colmare questa lacuna, introduciamo EOC-Bench, un benchmark innovativo progettato per valutare sistematicamente la cognizione embodied centrata sugli oggetti in scenari egocentrici dinamici. In particolare, EOC-Bench presenta 3.277 coppie di domande e risposte annotate meticolosamente, categorizzate in tre categorie temporali: Passato, Presente e Futuro, coprendo 11 dimensioni di valutazione dettagliate e 3 tipi di riferimento visivo agli oggetti. Per garantire una valutazione approfondita, sviluppiamo un framework di annotazione con intervento umano in loop di tipo misto, con quattro tipi di domande, e progettiamo una nuova metrica di accuratezza temporale multi-scala per la valutazione temporale a risposta aperta. Basandoci su EOC-Bench, conduciamo valutazioni complete di vari MLLMs proprietari, open-source e a livello di oggetto. EOC-Bench si pone come uno strumento cruciale per avanzare le capacità cognitive embodied degli oggetti nei MLLMs, stabilendo una solida base per lo sviluppo di modelli core affidabili per sistemi embodied.
English
The emergence of multimodal large language models (MLLMs) has driven
breakthroughs in egocentric vision applications. These applications necessitate
persistent, context-aware understanding of objects, as users interact with
tools in dynamic and cluttered environments. However, existing embodied
benchmarks primarily focus on static scene exploration, emphasizing object's
appearance and spatial attributes while neglecting the assessment of dynamic
changes arising from users' interactions. To address this gap, we introduce
EOC-Bench, an innovative benchmark designed to systematically evaluate
object-centric embodied cognition in dynamic egocentric scenarios. Specially,
EOC-Bench features 3,277 meticulously annotated QA pairs categorized into three
temporal categories: Past, Present, and Future, covering 11 fine-grained
evaluation dimensions and 3 visual object referencing types. To ensure thorough
assessment, we develop a mixed-format human-in-the-loop annotation framework
with four types of questions and design a novel multi-scale temporal accuracy
metric for open-ended temporal evaluation. Based on EOC-Bench, we conduct
comprehensive evaluations of various proprietary, open-source, and object-level
MLLMs. EOC-Bench serves as a crucial tool for advancing the embodied object
cognitive capabilities of MLLMs, establishing a robust foundation for
developing reliable core models for embodied systems.