MINED: Esplorazione e Aggiornamento con Conoscenza Multimodale Sensibile al Tempo per Modelli Multimodali di Grande Scala
MINED: Probing and Updating with Multimodal Time-Sensitive Knowledge for Large Multimodal Models
October 22, 2025
Autori: Kailin Jiang, Ning Jiang, Yuchen Ren, Yuchen Li, Yifan Gao, Jinhe Bi, Yunpu Ma, Qingqing Liu, Xianhao Wang, Yifan Jia, Hongbo Jiang, Yaocong Hu, Bin Li, Lei Liu, Yuntao Du
cs.AI
Abstract
I Large Multimodal Models (LMM) codificano una ricca conoscenza fattuale attraverso il pre-addestramento cross-modale, tuttavia le loro rappresentazioni statiche faticano a mantenere una comprensione accurata delle conoscenze fattuali sensibili al tempo. I benchmark esistenti rimangono limitati da progettazioni statiche, valutando in modo inadeguato la capacità degli LMM di comprendere conoscenze sensibili al tempo. Per colmare questa lacuna, proponiamo MINED, un benchmark completo che valuta la consapevolezza temporale lungo 6 dimensioni chiave e 11 compiti impegnativi: cognizione, consapevolezza, affidabilità, comprensione, ragionamento e robustezza. MINED è costruito da Wikipedia da due annotatori professionisti e contiene 2.104 campioni di conoscenza sensibili al tempo che coprono sei tipi di conoscenza. La valutazione di 15 LMM ampiamente utilizzati su MINED mostra che Gemini-2.5-Pro raggiunge il punteggio CEM medio più alto di 63.07, mentre la maggior parte degli LMM open-source manca ancora di capacità di comprensione temporale. Nel frattempo, gli LMM ottengono i migliori risultati sulla conoscenza organizzativa, mentre le loro prestazioni sono più deboli nello sport. Per affrontare queste sfide, indaghiamo la fattibilità di aggiornare le conoscenze sensibili al tempo negli LMM attraverso metodi di editing della conoscenza e osserviamo che gli LMM possono aggiornare efficacemente la conoscenza tramite metodi di editing in scenari di modifica singola.
English
Large Multimodal Models (LMMs) encode rich factual knowledge via cross-modal
pre-training, yet their static representations struggle to maintain an accurate
understanding of time-sensitive factual knowledge. Existing benchmarks remain
constrained by static designs, inadequately evaluating LMMs' ability to
understand time-sensitive knowledge. To address this gap, we propose MINED, a
comprehensive benchmark that evaluates temporal awareness along 6 key
dimensions and 11 challenging tasks: cognition, awareness, trustworthiness,
understanding, reasoning, and robustness. MINED is constructed from Wikipedia
by two professional annotators, containing 2,104 time-sensitive knowledge
samples spanning six knowledge types. Evaluating 15 widely used LMMs on MINED
shows that Gemini-2.5-Pro achieves the highest average CEM score of 63.07,
while most open-source LMMs still lack time understanding ability. Meanwhile,
LMMs perform best on organization knowledge, whereas their performance is
weakest on sport. To address these challenges, we investigate the feasibility
of updating time-sensitive knowledge in LMMs through knowledge editing methods
and observe that LMMs can effectively update knowledge via knowledge editing
methods in single editing scenarios.