EOC-Bench : Les MLLM peuvent-ils identifier, mémoriser et prédire les objets dans un monde égocentrique ?
EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World?
June 5, 2025
Auteurs: Yuqian Yuan, Ronghao Dang, Long Li, Wentong Li, Dian Jiao, Xin Li, Deli Zhao, Fan Wang, Wenqiao Zhang, Jun Xiao, Yueting Zhuang
cs.AI
Résumé
L'émergence des modèles de langage multimodaux à grande échelle (MLLMs) a conduit à des avancées majeures dans les applications de vision égocentrique. Ces applications nécessitent une compréhension persistante et contextuelle des objets, car les utilisateurs interagissent avec des outils dans des environnements dynamiques et encombrés. Cependant, les benchmarks existants en intelligence incarnée se concentrent principalement sur l'exploration de scènes statiques, mettant l'accent sur l'apparence et les attributs spatiaux des objets, tout en négligeant l'évaluation des changements dynamiques résultant des interactions des utilisateurs. Pour combler cette lacune, nous introduisons EOC-Bench, un benchmark innovant conçu pour évaluer systématiquement la cognition incarnée centrée sur les objets dans des scénarios égocentriques dynamiques. Plus précisément, EOC-Bench comprend 3 277 paires de questions-réponses méticuleusement annotées, classées en trois catégories temporelles : Passé, Présent et Futur, couvrant 11 dimensions d'évaluation fines et 3 types de références visuelles d'objets. Pour garantir une évaluation approfondie, nous développons un cadre d'annotation mixte avec intervention humaine, incluant quatre types de questions, et concevons une nouvelle métrique de précision temporelle multi-échelle pour l'évaluation temporelle ouverte. Sur la base d'EOC-Bench, nous menons des évaluations complètes de divers MLLMs propriétaires, open-source et au niveau des objets. EOC-Bench constitue un outil essentiel pour faire progresser les capacités de cognition incarnée des objets des MLLMs, établissant ainsi une base solide pour le développement de modèles centraux fiables pour les systèmes incarnés.
English
The emergence of multimodal large language models (MLLMs) has driven
breakthroughs in egocentric vision applications. These applications necessitate
persistent, context-aware understanding of objects, as users interact with
tools in dynamic and cluttered environments. However, existing embodied
benchmarks primarily focus on static scene exploration, emphasizing object's
appearance and spatial attributes while neglecting the assessment of dynamic
changes arising from users' interactions. To address this gap, we introduce
EOC-Bench, an innovative benchmark designed to systematically evaluate
object-centric embodied cognition in dynamic egocentric scenarios. Specially,
EOC-Bench features 3,277 meticulously annotated QA pairs categorized into three
temporal categories: Past, Present, and Future, covering 11 fine-grained
evaluation dimensions and 3 visual object referencing types. To ensure thorough
assessment, we develop a mixed-format human-in-the-loop annotation framework
with four types of questions and design a novel multi-scale temporal accuracy
metric for open-ended temporal evaluation. Based on EOC-Bench, we conduct
comprehensive evaluations of various proprietary, open-source, and object-level
MLLMs. EOC-Bench serves as a crucial tool for advancing the embodied object
cognitive capabilities of MLLMs, establishing a robust foundation for
developing reliable core models for embodied systems.