Perdu dans le temps : Défis de compréhension des horloges et calendriers dans les LMM multimodaux

papers.abstract

Comprendre le temps à partir de représentations visuelles est une compétence cognitive fondamentale, mais cela reste un défi pour les grands modèles de langage multimodaux (MLLMs). Dans ce travail, nous étudions les capacités des MLLMs à interpréter l'heure et la date à travers des horloges analogiques et des calendriers annuels. Pour ce faire, nous avons constitué un ensemble de données structuré comprenant deux sous-ensembles : 1) ClockQA, qui comprend divers types de styles d'horloges - standard, cadran noir, sans trotteuse, chiffres romains et aiguilles - associés à des questions liées au temps ; et 2) CalendarQA, qui se compose d'images de calendriers annuels avec des questions allant de dates couramment connues (par exemple, Noël, le jour de l'An) à des dates dérivées de manière computationnelle (par exemple, le 100e ou le 153e jour de l'année). Nous visons à analyser comment les MLLMs peuvent effectuer la reconnaissance visuelle, le raisonnement numérique et l'inférence temporelle lorsqu'ils sont confrontés à des données visuelles liées au temps. Nos évaluations montrent qu'en dépit des récents progrès, comprendre de manière fiable le temps reste un défi significatif pour les MLLMs.

English

Understanding time from visual representations is a fundamental cognitive skill, yet it remains a challenge for multimodal large language models (MLLMs). In this work, we investigate the capabilities of MLLMs in interpreting time and date through analogue clocks and yearly calendars. To facilitate this, we curated a structured dataset comprising two subsets: 1) ClockQA, which comprises various types of clock styles-standard, black-dial, no-second-hand, Roman numeral, and arrow-hand clocks-paired with time related questions; and 2) CalendarQA, which consists of yearly calendar images with questions ranging from commonly known dates (e.g., Christmas, New Year's Day) to computationally derived ones (e.g., the 100th or 153rd day of the year). We aim to analyse how MLLMs can perform visual recognition, numerical reasoning, and temporal inference when presented with time-related visual data. Our evaluations show that despite recent advancements, reliably understanding time remains a significant challenge for MLLMs.

Perdu dans le temps : Défis de compréhension des horloges et calendriers dans les LMM multimodaux

Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs

papers.abstract

Support