MINED: Abfragen und Aktualisieren mit multimodalen zeitkritischen Kenntnissen für große multimodale Modelle
MINED: Probing and Updating with Multimodal Time-Sensitive Knowledge for Large Multimodal Models
October 22, 2025
papers.authors: Kailin Jiang, Ning Jiang, Yuchen Ren, Yuchen Li, Yifan Gao, Jinhe Bi, Yunpu Ma, Qingqing Liu, Xianhao Wang, Yifan Jia, Hongbo Jiang, Yaocong Hu, Bin Li, Lei Liu, Yuntao Du
cs.AI
papers.abstract
Große Multimodale Modelle (LMMs) kodieren umfangreiches Faktenwissen durch cross-modales Vortraining, doch ihre statischen Repräsentationen haben Schwierigkeiten, ein genaues Verständnis zeitkritischen Faktenwissens aufrechtzuerhalten. Bestehende Benchmarks bleiben durch statische Designs eingeschränkt und bewerten die Fähigkeit von LMMs, zeitkritisches Wissen zu verstehen, unzureichend. Um diese Lücke zu schließen, schlagen wir MINED vor, einen umfassenden Benchmark, der das zeitliche Bewusstsein entlang sechs Schlüsseldimensionen und elf anspruchsvollen Aufgaben bewertet: Kognition, Bewusstsein, Vertrauenswürdigkeit, Verständnis, Schlussfolgerung und Robustheit. MINED wurde von zwei professionellen Annotatoren aus Wikipedia erstellt und enthält 2.104 zeitkritische Wissensproben, die sechs Wissensarten umfassen. Die Bewertung von 15 weit verbreiteten LMMs anhand von MINED zeigt, dass Gemini-2.5-Pro mit einem durchschnittlichen CEM-Score von 63,07 am besten abschneidet, während die meisten Open-Source-LMMs noch immer kein Verständnis für zeitkritisches Wissen aufweisen. Gleichzeitig erzielen LMMs die besten Ergebnisse bei Organisationswissen, während ihre Leistung im Bereich Sport am schwächsten ist. Um diese Herausforderungen zu bewältigen, untersuchen wir die Machbarkeit der Aktualisierung zeitkritischen Wissens in LMMs durch Wissensbearbeitungsmethoden und beobachten, dass LMMs Wissen in Einzelbearbeitungsszenarien effektiv aktualisieren können.
English
Large Multimodal Models (LMMs) encode rich factual knowledge via cross-modal
pre-training, yet their static representations struggle to maintain an accurate
understanding of time-sensitive factual knowledge. Existing benchmarks remain
constrained by static designs, inadequately evaluating LMMs' ability to
understand time-sensitive knowledge. To address this gap, we propose MINED, a
comprehensive benchmark that evaluates temporal awareness along 6 key
dimensions and 11 challenging tasks: cognition, awareness, trustworthiness,
understanding, reasoning, and robustness. MINED is constructed from Wikipedia
by two professional annotators, containing 2,104 time-sensitive knowledge
samples spanning six knowledge types. Evaluating 15 widely used LMMs on MINED
shows that Gemini-2.5-Pro achieves the highest average CEM score of 63.07,
while most open-source LMMs still lack time understanding ability. Meanwhile,
LMMs perform best on organization knowledge, whereas their performance is
weakest on sport. To address these challenges, we investigate the feasibility
of updating time-sensitive knowledge in LMMs through knowledge editing methods
and observe that LMMs can effectively update knowledge via knowledge editing
methods in single editing scenarios.