Perdu dans le temps : Défis de compréhension des horloges et calendriers dans les LMM multimodaux
Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs
February 7, 2025
Auteurs: Rohit Saxena, Aryo Pradipta Gema, Pasquale Minervini
cs.AI
Résumé
Comprendre le temps à partir de représentations visuelles est une compétence cognitive fondamentale, mais cela reste un défi pour les grands modèles de langage multimodaux (MLLMs). Dans ce travail, nous étudions les capacités des MLLMs à interpréter l'heure et la date à travers des horloges analogiques et des calendriers annuels. Pour ce faire, nous avons constitué un ensemble de données structuré comprenant deux sous-ensembles : 1) ClockQA, qui comprend divers types de styles d'horloges - standard, cadran noir, sans trotteuse, chiffres romains et aiguilles - associés à des questions liées au temps ; et 2) CalendarQA, qui se compose d'images de calendriers annuels avec des questions allant de dates couramment connues (par exemple, Noël, le jour de l'An) à des dates dérivées de manière computationnelle (par exemple, le 100e ou le 153e jour de l'année). Nous visons à analyser comment les MLLMs peuvent effectuer la reconnaissance visuelle, le raisonnement numérique et l'inférence temporelle lorsqu'ils sont confrontés à des données visuelles liées au temps. Nos évaluations montrent qu'en dépit des récents progrès, comprendre de manière fiable le temps reste un défi significatif pour les MLLMs.
English
Understanding time from visual representations is a fundamental cognitive
skill, yet it remains a challenge for multimodal large language models (MLLMs).
In this work, we investigate the capabilities of MLLMs in interpreting time and
date through analogue clocks and yearly calendars. To facilitate this, we
curated a structured dataset comprising two subsets: 1) ClockQA,
which comprises various types of clock styles-standard, black-dial,
no-second-hand, Roman numeral, and arrow-hand clocks-paired with time related
questions; and 2) CalendarQA, which consists of yearly calendar
images with questions ranging from commonly known dates (e.g., Christmas, New
Year's Day) to computationally derived ones (e.g., the 100th or 153rd day of
the year). We aim to analyse how MLLMs can perform visual recognition,
numerical reasoning, and temporal inference when presented with time-related
visual data. Our evaluations show that despite recent advancements, reliably
understanding time remains a significant challenge for MLLMs.Summary
AI-Generated Summary