Verdwaald in de Tijd: Uitdagingen in het Begrijpen van Klok en Kalender in Multimodale LLM's
Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs
February 7, 2025
Auteurs: Rohit Saxena, Aryo Pradipta Gema, Pasquale Minervini
cs.AI
Samenvatting
Het begrijpen van tijd vanuit visuele representaties is een fundamentele cognitieve vaardigheid, maar het blijft een uitdaging voor multimodale grote taalmodellen (MLLM's). In dit werk onderzoeken we de mogelijkheden van MLLM's om tijd en datum te interpreteren aan de hand van analoge klokken en jaarlijkse kalenders. Om dit te vergemakkelijken, hebben we een gestructureerde dataset samengesteld bestaande uit twee subsets: 1) KlokkenV&A, die verschillende soorten klokstijlen omvat - standaard, zwart-wijzerplaat, zonder secondewijzer, Romeinse cijfers en pijlwijzers - gekoppeld aan tijdgerelateerde vragen; en 2) KalenderV&A, die bestaat uit jaarlijkse kalenderafbeeldingen met vragen variërend van algemeen bekende data (bijv. Kerstmis, Nieuwjaarsdag) tot berekende data (bijv. de 100e of 153e dag van het jaar). We beogen te analyseren hoe MLLM's kunnen presteren in visuele herkenning, numerieke redenering en temporele inferentie wanneer ze worden gepresenteerd met tijdgerelateerde visuele gegevens. Onze evaluaties tonen aan dat ondanks recente vooruitgang, het betrouwbaar begrijpen van tijd een aanzienlijke uitdaging blijft voor MLLM's.
English
Understanding time from visual representations is a fundamental cognitive
skill, yet it remains a challenge for multimodal large language models (MLLMs).
In this work, we investigate the capabilities of MLLMs in interpreting time and
date through analogue clocks and yearly calendars. To facilitate this, we
curated a structured dataset comprising two subsets: 1) ClockQA,
which comprises various types of clock styles-standard, black-dial,
no-second-hand, Roman numeral, and arrow-hand clocks-paired with time related
questions; and 2) CalendarQA, which consists of yearly calendar
images with questions ranging from commonly known dates (e.g., Christmas, New
Year's Day) to computationally derived ones (e.g., the 100th or 153rd day of
the year). We aim to analyse how MLLMs can perform visual recognition,
numerical reasoning, and temporal inference when presented with time-related
visual data. Our evaluations show that despite recent advancements, reliably
understanding time remains a significant challenge for MLLMs.Summary
AI-Generated Summary