Perdido en el Tiempo: Desafíos en la Comprensión de Relojes y Calendarios en LLMs Multimodales
Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs
February 7, 2025
Autores: Rohit Saxena, Aryo Pradipta Gema, Pasquale Minervini
cs.AI
Resumen
Entender el tiempo a partir de representaciones visuales es una habilidad cognitiva fundamental, sin embargo, sigue siendo un desafío para los grandes modelos de lenguaje multimodales (MLLMs). En este trabajo, investigamos las capacidades de los MLLMs en la interpretación del tiempo y la fecha a través de relojes analógicos y calendarios anuales. Para facilitar esto, creamos un conjunto de datos estructurado que consta de dos subconjuntos: 1) ClockQA, que incluye varios tipos de estilos de relojes -estándar, esfera negra, sin segundero, números romanos y manecillas de flecha- emparejados con preguntas relacionadas con el tiempo; y 2) CalendarQA, que consiste en imágenes de calendarios anuales con preguntas que van desde fechas comúnmente conocidas (por ejemplo, Navidad, Año Nuevo) hasta fechas derivadas computacionalmente (por ejemplo, el día 100 o el 153 del año). Nuestro objetivo es analizar cómo los MLLMs pueden llevar a cabo reconocimiento visual, razonamiento numérico e inferencia temporal cuando se les presenta datos visuales relacionados con el tiempo. Nuestras evaluaciones muestran que a pesar de los avances recientes, entender el tiempo de manera fiable sigue siendo un desafío significativo para los MLLMs.
English
Understanding time from visual representations is a fundamental cognitive
skill, yet it remains a challenge for multimodal large language models (MLLMs).
In this work, we investigate the capabilities of MLLMs in interpreting time and
date through analogue clocks and yearly calendars. To facilitate this, we
curated a structured dataset comprising two subsets: 1) ClockQA,
which comprises various types of clock styles-standard, black-dial,
no-second-hand, Roman numeral, and arrow-hand clocks-paired with time related
questions; and 2) CalendarQA, which consists of yearly calendar
images with questions ranging from commonly known dates (e.g., Christmas, New
Year's Day) to computationally derived ones (e.g., the 100th or 153rd day of
the year). We aim to analyse how MLLMs can perform visual recognition,
numerical reasoning, and temporal inference when presented with time-related
visual data. Our evaluations show that despite recent advancements, reliably
understanding time remains a significant challenge for MLLMs.Summary
AI-Generated Summary