時間の迷子:マルチモーダルLLMにおける時計とカレンダーの理解に関する課題
Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs
February 7, 2025
著者: Rohit Saxena, Aryo Pradipta Gema, Pasquale Minervini
cs.AI
要旨
視覚表現から時間を理解することは、基本的な認知スキルですが、マルチモーダル大規模言語モデル(MLLMs)にとっては依然として課題です。本研究では、アナログ時計と年間カレンダーを通じた時間と日付の解釈能力をMLLMsについて調査しています。このために、構造化されたデータセットを収集しました。このデータセットには、以下の2つのサブセットが含まれています。1)ClockQAは、さまざまな種類の時計スタイル(標準、黒文字盤、秒針なし、ローマ数字、矢印針時計)と時間に関連する質問がペアになっています。2)CalendarQAは、年間カレンダー画像と、クリスマス、元日などの一般的に知られている日付から、年の100日目や153日目などの計算に基づく日付まで幅広い質問が含まれています。MLLMsが時間に関連する視覚データを提示された際に、視覚認識、数理推論、時間推論をどのように実行できるかを分析することを目指しています。私たちの評価によると、最近の進歩にもかかわらず、時間を信頼性を持って理解することは、MLLMsにとって依然として大きな課題であることが示されています。
English
Understanding time from visual representations is a fundamental cognitive
skill, yet it remains a challenge for multimodal large language models (MLLMs).
In this work, we investigate the capabilities of MLLMs in interpreting time and
date through analogue clocks and yearly calendars. To facilitate this, we
curated a structured dataset comprising two subsets: 1) ClockQA,
which comprises various types of clock styles-standard, black-dial,
no-second-hand, Roman numeral, and arrow-hand clocks-paired with time related
questions; and 2) CalendarQA, which consists of yearly calendar
images with questions ranging from commonly known dates (e.g., Christmas, New
Year's Day) to computationally derived ones (e.g., the 100th or 153rd day of
the year). We aim to analyse how MLLMs can perform visual recognition,
numerical reasoning, and temporal inference when presented with time-related
visual data. Our evaluations show that despite recent advancements, reliably
understanding time remains a significant challenge for MLLMs.Summary
AI-Generated Summary