Persi nel Tempo: Sfide nella Comprensione dell'Orologio e del Calendario nei LLM Multimodali

Abstract

Comprendere il concetto di tempo dalle rappresentazioni visive è una competenza cognitiva fondamentale, ma rimane una sfida per i grandi modelli di linguaggio multimodali (MLLMs). In questo lavoro, esaminiamo le capacità dei MLLMs nell'interpretare il tempo e la data attraverso orologi analogici e calendari annuali. Per agevolare ciò, abbiamo creato un dataset strutturato che comprende due sottoinsiemi: 1) ClockQA, che include vari tipi di stili di orologi - standard, quadrante nero, senza lancette dei secondi, numeri romani e lancette ad ago - abbinati a domande correlate al tempo; e 2) CalendarQA, che consiste in immagini di calendari annuali con domande che vanno da date comunemente note (ad esempio, Natale, Capodanno) a date derivate computazionalmente (ad esempio, il 100° o il 153° giorno dell'anno). Il nostro obiettivo è analizzare come i MLLMs possano eseguire il riconoscimento visivo, il ragionamento numerico e l'inferenza temporale quando presentati con dati visivi correlati al tempo. Le nostre valutazioni mostrano che nonostante i recenti progressi, comprendere in modo affidabile il concetto di tempo rimane una sfida significativa per i MLLMs.

English

Understanding time from visual representations is a fundamental cognitive skill, yet it remains a challenge for multimodal large language models (MLLMs). In this work, we investigate the capabilities of MLLMs in interpreting time and date through analogue clocks and yearly calendars. To facilitate this, we curated a structured dataset comprising two subsets: 1) ClockQA, which comprises various types of clock styles-standard, black-dial, no-second-hand, Roman numeral, and arrow-hand clocks-paired with time related questions; and 2) CalendarQA, which consists of yearly calendar images with questions ranging from commonly known dates (e.g., Christmas, New Year's Day) to computationally derived ones (e.g., the 100th or 153rd day of the year). We aim to analyse how MLLMs can perform visual recognition, numerical reasoning, and temporal inference when presented with time-related visual data. Our evaluations show that despite recent advancements, reliably understanding time remains a significant challenge for MLLMs.

Persi nel Tempo: Sfide nella Comprensione dell'Orologio e del Calendario nei LLM Multimodali

Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs

Abstract

Support