Perdido en el Tiempo: Desafíos en la Comprensión de Relojes y Calendarios en LLMs Multimodales

Resumen

Entender el tiempo a partir de representaciones visuales es una habilidad cognitiva fundamental, sin embargo, sigue siendo un desafío para los grandes modelos de lenguaje multimodales (MLLMs). En este trabajo, investigamos las capacidades de los MLLMs en la interpretación del tiempo y la fecha a través de relojes analógicos y calendarios anuales. Para facilitar esto, creamos un conjunto de datos estructurado que consta de dos subconjuntos: 1) ClockQA, que incluye varios tipos de estilos de relojes -estándar, esfera negra, sin segundero, números romanos y manecillas de flecha- emparejados con preguntas relacionadas con el tiempo; y 2) CalendarQA, que consiste en imágenes de calendarios anuales con preguntas que van desde fechas comúnmente conocidas (por ejemplo, Navidad, Año Nuevo) hasta fechas derivadas computacionalmente (por ejemplo, el día 100 o el 153 del año). Nuestro objetivo es analizar cómo los MLLMs pueden llevar a cabo reconocimiento visual, razonamiento numérico e inferencia temporal cuando se les presenta datos visuales relacionados con el tiempo. Nuestras evaluaciones muestran que a pesar de los avances recientes, entender el tiempo de manera fiable sigue siendo un desafío significativo para los MLLMs.

English

Understanding time from visual representations is a fundamental cognitive skill, yet it remains a challenge for multimodal large language models (MLLMs). In this work, we investigate the capabilities of MLLMs in interpreting time and date through analogue clocks and yearly calendars. To facilitate this, we curated a structured dataset comprising two subsets: 1) ClockQA, which comprises various types of clock styles-standard, black-dial, no-second-hand, Roman numeral, and arrow-hand clocks-paired with time related questions; and 2) CalendarQA, which consists of yearly calendar images with questions ranging from commonly known dates (e.g., Christmas, New Year's Day) to computationally derived ones (e.g., the 100th or 153rd day of the year). We aim to analyse how MLLMs can perform visual recognition, numerical reasoning, and temporal inference when presented with time-related visual data. Our evaluations show that despite recent advancements, reliably understanding time remains a significant challenge for MLLMs.