MINED: 대규모 멀티모달 모델을 위한 멀티모달 시간 민감 지식 탐색 및 업데이트
MINED: Probing and Updating with Multimodal Time-Sensitive Knowledge for Large Multimodal Models
October 22, 2025
저자: Kailin Jiang, Ning Jiang, Yuchen Ren, Yuchen Li, Yifan Gao, Jinhe Bi, Yunpu Ma, Qingqing Liu, Xianhao Wang, Yifan Jia, Hongbo Jiang, Yaocong Hu, Bin Li, Lei Liu, Yuntao Du
cs.AI
초록
대규모 멀티모달 모델(LMMs)은 크로스모달 사전 학습을 통해 풍부한 사실 지식을 인코딩하지만, 정적 표현 방식으로 인해 시간에 민감한 사실 지식에 대한 정확한 이해를 유지하는 데 어려움을 겪습니다. 기존 벤치마크는 정적 설계에 제한되어 있어 LMMs의 시간 민감 지식 이해 능력을 충분히 평가하지 못하고 있습니다. 이러한 격차를 해결하기 위해, 우리는 MINED라는 포괄적인 벤치마크를 제안합니다. MINED는 6가지 주요 차원(인지, 인식, 신뢰성, 이해, 추론, 견고성)과 11개의 도전적인 과제를 통해 시간적 인식을 평가합니다. MINED는 두 명의 전문 주석자가 위키백과에서 수집한 2,104개의 시간 민감 지식 샘플로 구성되며, 여섯 가지 지식 유형을 포괄합니다. MINED를 사용하여 널리 사용되는 15개의 LMMs를 평가한 결과, Gemini-2.5-Pro가 평균 CEM 점수 63.07로 가장 높은 성적을 거두었으며, 대부분의 오픈소스 LMMs는 여전히 시간 이해 능력이 부족한 것으로 나타났습니다. 한편, LMMs는 조직 지식에서 가장 우수한 성능을 보였지만, 스포츠 지식에서는 가장 약한 성능을 보였습니다. 이러한 문제를 해결하기 위해, 우리는 지식 편집 방법을 통해 LMMs의 시간 민감 지식을 업데이트하는 가능성을 조사했으며, 단일 편집 시나리오에서 LMMs가 지식 편집 방법을 통해 효과적으로 지식을 업데이트할 수 있음을 관찰했습니다.
English
Large Multimodal Models (LMMs) encode rich factual knowledge via cross-modal
pre-training, yet their static representations struggle to maintain an accurate
understanding of time-sensitive factual knowledge. Existing benchmarks remain
constrained by static designs, inadequately evaluating LMMs' ability to
understand time-sensitive knowledge. To address this gap, we propose MINED, a
comprehensive benchmark that evaluates temporal awareness along 6 key
dimensions and 11 challenging tasks: cognition, awareness, trustworthiness,
understanding, reasoning, and robustness. MINED is constructed from Wikipedia
by two professional annotators, containing 2,104 time-sensitive knowledge
samples spanning six knowledge types. Evaluating 15 widely used LMMs on MINED
shows that Gemini-2.5-Pro achieves the highest average CEM score of 63.07,
while most open-source LMMs still lack time understanding ability. Meanwhile,
LMMs perform best on organization knowledge, whereas their performance is
weakest on sport. To address these challenges, we investigate the feasibility
of updating time-sensitive knowledge in LMMs through knowledge editing methods
and observe that LMMs can effectively update knowledge via knowledge editing
methods in single editing scenarios.