Persi nel Tempo: Sfide nella Comprensione dell'Orologio e del Calendario nei LLM Multimodali
Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs
February 7, 2025
Autori: Rohit Saxena, Aryo Pradipta Gema, Pasquale Minervini
cs.AI
Abstract
Comprendere il concetto di tempo dalle rappresentazioni visive è una competenza cognitiva fondamentale, ma rimane una sfida per i grandi modelli di linguaggio multimodali (MLLMs). In questo lavoro, esaminiamo le capacità dei MLLMs nell'interpretare il tempo e la data attraverso orologi analogici e calendari annuali. Per agevolare ciò, abbiamo creato un dataset strutturato che comprende due sottoinsiemi: 1) ClockQA, che include vari tipi di stili di orologi - standard, quadrante nero, senza lancette dei secondi, numeri romani e lancette ad ago - abbinati a domande correlate al tempo; e 2) CalendarQA, che consiste in immagini di calendari annuali con domande che vanno da date comunemente note (ad esempio, Natale, Capodanno) a date derivate computazionalmente (ad esempio, il 100° o il 153° giorno dell'anno). Il nostro obiettivo è analizzare come i MLLMs possano eseguire il riconoscimento visivo, il ragionamento numerico e l'inferenza temporale quando presentati con dati visivi correlati al tempo. Le nostre valutazioni mostrano che nonostante i recenti progressi, comprendere in modo affidabile il concetto di tempo rimane una sfida significativa per i MLLMs.
English
Understanding time from visual representations is a fundamental cognitive
skill, yet it remains a challenge for multimodal large language models (MLLMs).
In this work, we investigate the capabilities of MLLMs in interpreting time and
date through analogue clocks and yearly calendars. To facilitate this, we
curated a structured dataset comprising two subsets: 1) ClockQA,
which comprises various types of clock styles-standard, black-dial,
no-second-hand, Roman numeral, and arrow-hand clocks-paired with time related
questions; and 2) CalendarQA, which consists of yearly calendar
images with questions ranging from commonly known dates (e.g., Christmas, New
Year's Day) to computationally derived ones (e.g., the 100th or 153rd day of
the year). We aim to analyse how MLLMs can perform visual recognition,
numerical reasoning, and temporal inference when presented with time-related
visual data. Our evaluations show that despite recent advancements, reliably
understanding time remains a significant challenge for MLLMs.Summary
AI-Generated Summary