Verdwaald in de Tijd: Uitdagingen in het Begrijpen van Klok en Kalender in Multimodale LLM's

Samenvatting

Het begrijpen van tijd vanuit visuele representaties is een fundamentele cognitieve vaardigheid, maar het blijft een uitdaging voor multimodale grote taalmodellen (MLLM's). In dit werk onderzoeken we de mogelijkheden van MLLM's om tijd en datum te interpreteren aan de hand van analoge klokken en jaarlijkse kalenders. Om dit te vergemakkelijken, hebben we een gestructureerde dataset samengesteld bestaande uit twee subsets: 1) KlokkenV&A, die verschillende soorten klokstijlen omvat - standaard, zwart-wijzerplaat, zonder secondewijzer, Romeinse cijfers en pijlwijzers - gekoppeld aan tijdgerelateerde vragen; en 2) KalenderV&A, die bestaat uit jaarlijkse kalenderafbeeldingen met vragen variërend van algemeen bekende data (bijv. Kerstmis, Nieuwjaarsdag) tot berekende data (bijv. de 100e of 153e dag van het jaar). We beogen te analyseren hoe MLLM's kunnen presteren in visuele herkenning, numerieke redenering en temporele inferentie wanneer ze worden gepresenteerd met tijdgerelateerde visuele gegevens. Onze evaluaties tonen aan dat ondanks recente vooruitgang, het betrouwbaar begrijpen van tijd een aanzienlijke uitdaging blijft voor MLLM's.

English

Understanding time from visual representations is a fundamental cognitive skill, yet it remains a challenge for multimodal large language models (MLLMs). In this work, we investigate the capabilities of MLLMs in interpreting time and date through analogue clocks and yearly calendars. To facilitate this, we curated a structured dataset comprising two subsets: 1) ClockQA, which comprises various types of clock styles-standard, black-dial, no-second-hand, Roman numeral, and arrow-hand clocks-paired with time related questions; and 2) CalendarQA, which consists of yearly calendar images with questions ranging from commonly known dates (e.g., Christmas, New Year's Day) to computationally derived ones (e.g., the 100th or 153rd day of the year). We aim to analyse how MLLMs can perform visual recognition, numerical reasoning, and temporal inference when presented with time-related visual data. Our evaluations show that despite recent advancements, reliably understanding time remains a significant challenge for MLLMs.

Verdwaald in de Tijd: Uitdagingen in het Begrijpen van Klok en Kalender in Multimodale LLM's

Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs

Samenvatting

Support