Perdido no Tempo: Desafios de Compreensão de Relógio e Calendário em LLMs Multimodais

Resumo

Compreender o tempo a partir de representações visuais é uma habilidade cognitiva fundamental, no entanto, ainda é um desafio para modelos de linguagem multimodais de grande escala (MLLMs). Neste trabalho, investigamos as capacidades dos MLLMs na interpretação de tempo e data por meio de relógios analógicos e calendários anuais. Para facilitar isso, criamos um conjunto de dados estruturado composto por dois subconjuntos: 1) ClockQA, que inclui vários tipos de estilos de relógio - padrão, mostrador preto, sem ponteiro de segundos, numeração romana e ponteiros - associados a perguntas relacionadas ao tempo; e 2) CalendarQA, que consiste em imagens de calendários anuais com perguntas que vão de datas comumente conhecidas (por exemplo, Natal, Ano Novo) a datas derivadas computacionalmente (por exemplo, o 100º ou 153º dia do ano). Nosso objetivo é analisar como os MLLMs podem realizar reconhecimento visual, raciocínio numérico e inferência temporal quando apresentados com dados visuais relacionados ao tempo. Nossas avaliações mostram que, apesar dos avanços recentes, compreender o tempo de forma confiável ainda é um desafio significativo para os MLLMs.

English

Understanding time from visual representations is a fundamental cognitive skill, yet it remains a challenge for multimodal large language models (MLLMs). In this work, we investigate the capabilities of MLLMs in interpreting time and date through analogue clocks and yearly calendars. To facilitate this, we curated a structured dataset comprising two subsets: 1) ClockQA, which comprises various types of clock styles-standard, black-dial, no-second-hand, Roman numeral, and arrow-hand clocks-paired with time related questions; and 2) CalendarQA, which consists of yearly calendar images with questions ranging from commonly known dates (e.g., Christmas, New Year's Day) to computationally derived ones (e.g., the 100th or 153rd day of the year). We aim to analyse how MLLMs can perform visual recognition, numerical reasoning, and temporal inference when presented with time-related visual data. Our evaluations show that despite recent advancements, reliably understanding time remains a significant challenge for MLLMs.

Perdido no Tempo: Desafios de Compreensão de Relógio e Calendário em LLMs Multimodais

Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs

Resumo

Support