Потерянное во времени: проблемы понимания часов и календаря в мультимодальных LLM-моделях
Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs
February 7, 2025
Авторы: Rohit Saxena, Aryo Pradipta Gema, Pasquale Minervini
cs.AI
Аннотация
Понимание времени по визуальным представлениям является фундаментальным когнитивным навыком, однако остается вызовом для мультимодальных больших языковых моделей (MLLMs). В данной работе мы исследуем способности MLLMs в интерпретации времени и даты через аналоговые часы и ежегодные календари. Для этого мы подготовили структурированный набор данных, включающий два подмножества: 1) ClockQA, включающий различные типы часов - стандартные, с черным циферблатом, без секундной стрелки, с римскими цифрами и со стрелкой - в паре с вопросами, связанными с временем; и 2) CalendarQA, состоящий из изображений ежегодных календарей с вопросами, охватывающими как широко известные даты (например, Рождество, Новый год), так и вычисленные (например, 100-й или 153-й день года). Мы стремимся проанализировать, как MLLMs могут выполнять визуальное распознавание, числовое рассуждение и временной вывод при представлении данных, связанных с временем. Наши оценки показывают, что несмотря на недавние достижения, надежное понимание времени остается значительным вызовом для MLLMs.
English
Understanding time from visual representations is a fundamental cognitive
skill, yet it remains a challenge for multimodal large language models (MLLMs).
In this work, we investigate the capabilities of MLLMs in interpreting time and
date through analogue clocks and yearly calendars. To facilitate this, we
curated a structured dataset comprising two subsets: 1) ClockQA,
which comprises various types of clock styles-standard, black-dial,
no-second-hand, Roman numeral, and arrow-hand clocks-paired with time related
questions; and 2) CalendarQA, which consists of yearly calendar
images with questions ranging from commonly known dates (e.g., Christmas, New
Year's Day) to computationally derived ones (e.g., the 100th or 153rd day of
the year). We aim to analyse how MLLMs can perform visual recognition,
numerical reasoning, and temporal inference when presented with time-related
visual data. Our evaluations show that despite recent advancements, reliably
understanding time remains a significant challenge for MLLMs.Summary
AI-Generated Summary