EOC-Bench: Os MLLMs Podem Identificar, Recordar e Prever Objetos em um Mundo Egocêntrico?
EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World?
June 5, 2025
Autores: Yuqian Yuan, Ronghao Dang, Long Li, Wentong Li, Dian Jiao, Xin Li, Deli Zhao, Fan Wang, Wenqiao Zhang, Jun Xiao, Yueting Zhuang
cs.AI
Resumo
O surgimento de modelos de linguagem multimodal de grande escala (MLLMs) impulsionou avanços significativos em aplicações de visão egocêntrica. Essas aplicações exigem uma compreensão persistente e contextualizada de objetos, à medida que os usuários interagem com ferramentas em ambientes dinâmicos e desorganizados. No entanto, os benchmarks existentes para sistemas corporificados concentram-se principalmente na exploração de cenas estáticas, enfatizando a aparência e os atributos espaciais dos objetos, enquanto negligenciam a avaliação de mudanças dinâmicas decorrentes das interações dos usuários. Para preencher essa lacuna, apresentamos o EOC-Bench, um benchmark inovador projetado para avaliar sistematicamente a cognição corporificada centrada em objetos em cenários egocêntricos dinâmicos. Especificamente, o EOC-Bench apresenta 3.277 pares de perguntas e respostas meticulosamente anotados, categorizados em três categorias temporais: Passado, Presente e Futuro, abrangendo 11 dimensões de avaliação detalhadas e 3 tipos de referência visual a objetos. Para garantir uma avaliação abrangente, desenvolvemos um framework de anotação híbrido com intervenção humana, contendo quatro tipos de perguntas, e projetamos uma nova métrica de precisão temporal multiescala para avaliação temporal de respostas abertas. Com base no EOC-Bench, realizamos avaliações abrangentes de diversos MLLMs proprietários, de código aberto e em nível de objeto. O EOC-Bench serve como uma ferramenta crucial para avançar as capacidades de cognição corporificada de objetos em MLLMs, estabelecendo uma base robusta para o desenvolvimento de modelos centrais confiáveis para sistemas corporificados.
English
The emergence of multimodal large language models (MLLMs) has driven
breakthroughs in egocentric vision applications. These applications necessitate
persistent, context-aware understanding of objects, as users interact with
tools in dynamic and cluttered environments. However, existing embodied
benchmarks primarily focus on static scene exploration, emphasizing object's
appearance and spatial attributes while neglecting the assessment of dynamic
changes arising from users' interactions. To address this gap, we introduce
EOC-Bench, an innovative benchmark designed to systematically evaluate
object-centric embodied cognition in dynamic egocentric scenarios. Specially,
EOC-Bench features 3,277 meticulously annotated QA pairs categorized into three
temporal categories: Past, Present, and Future, covering 11 fine-grained
evaluation dimensions and 3 visual object referencing types. To ensure thorough
assessment, we develop a mixed-format human-in-the-loop annotation framework
with four types of questions and design a novel multi-scale temporal accuracy
metric for open-ended temporal evaluation. Based on EOC-Bench, we conduct
comprehensive evaluations of various proprietary, open-source, and object-level
MLLMs. EOC-Bench serves as a crucial tool for advancing the embodied object
cognitive capabilities of MLLMs, establishing a robust foundation for
developing reliable core models for embodied systems.