Perdido no Tempo: Desafios de Compreensão de Relógio e Calendário em LLMs Multimodais
Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs
February 7, 2025
Autores: Rohit Saxena, Aryo Pradipta Gema, Pasquale Minervini
cs.AI
Resumo
Compreender o tempo a partir de representações visuais é uma habilidade cognitiva fundamental, no entanto, ainda é um desafio para modelos de linguagem multimodais de grande escala (MLLMs). Neste trabalho, investigamos as capacidades dos MLLMs na interpretação de tempo e data por meio de relógios analógicos e calendários anuais. Para facilitar isso, criamos um conjunto de dados estruturado composto por dois subconjuntos: 1) ClockQA, que inclui vários tipos de estilos de relógio - padrão, mostrador preto, sem ponteiro de segundos, numeração romana e ponteiros - associados a perguntas relacionadas ao tempo; e 2) CalendarQA, que consiste em imagens de calendários anuais com perguntas que vão de datas comumente conhecidas (por exemplo, Natal, Ano Novo) a datas derivadas computacionalmente (por exemplo, o 100º ou 153º dia do ano). Nosso objetivo é analisar como os MLLMs podem realizar reconhecimento visual, raciocínio numérico e inferência temporal quando apresentados com dados visuais relacionados ao tempo. Nossas avaliações mostram que, apesar dos avanços recentes, compreender o tempo de forma confiável ainda é um desafio significativo para os MLLMs.
English
Understanding time from visual representations is a fundamental cognitive
skill, yet it remains a challenge for multimodal large language models (MLLMs).
In this work, we investigate the capabilities of MLLMs in interpreting time and
date through analogue clocks and yearly calendars. To facilitate this, we
curated a structured dataset comprising two subsets: 1) ClockQA,
which comprises various types of clock styles-standard, black-dial,
no-second-hand, Roman numeral, and arrow-hand clocks-paired with time related
questions; and 2) CalendarQA, which consists of yearly calendar
images with questions ranging from commonly known dates (e.g., Christmas, New
Year's Day) to computationally derived ones (e.g., the 100th or 153rd day of
the year). We aim to analyse how MLLMs can perform visual recognition,
numerical reasoning, and temporal inference when presented with time-related
visual data. Our evaluations show that despite recent advancements, reliably
understanding time remains a significant challenge for MLLMs.Summary
AI-Generated Summary