MINED: Исследование и обновление с использованием мультимодальных временно-чувствительных знаний для крупных мультимодальных моделей
MINED: Probing and Updating with Multimodal Time-Sensitive Knowledge for Large Multimodal Models
October 22, 2025
Авторы: Kailin Jiang, Ning Jiang, Yuchen Ren, Yuchen Li, Yifan Gao, Jinhe Bi, Yunpu Ma, Qingqing Liu, Xianhao Wang, Yifan Jia, Hongbo Jiang, Yaocong Hu, Bin Li, Lei Liu, Yuntao Du
cs.AI
Аннотация
Крупные мультимодальные модели (LMMs) кодируют богатые фактические знания посредством кросс-модального предварительного обучения, однако их статические представления испытывают трудности с поддержанием точного понимания временно-чувствительных фактов. Существующие бенчмарки остаются ограниченными статичными подходами, недостаточно оценивая способность LMMs понимать временно-чувствительные знания. Для устранения этого пробела мы предлагаем MINED — комплексный бенчмарк, который оценивает временную осведомлённость по 6 ключевым направлениям и 11 сложным задачам: познание, осведомлённость, достоверность, понимание, рассуждение и устойчивость. MINED создан на основе Википедии двумя профессиональными аннотаторами и содержит 2 104 образца временно-чувствительных знаний, охватывающих шесть типов знаний. Оценка 15 широко используемых LMMs на MINED показывает, что Gemini-2.5-Pro достигает наивысшего среднего показателя CEM в 63.07, в то время как большинство открытых LMMs всё ещё не обладают способностью понимать время. При этом LMMs демонстрируют наилучшие результаты в области знаний об организациях, тогда как их производительность наиболее слаба в спортивной тематике. Для решения этих проблем мы исследуем возможность обновления временно-чувствительных знаний в LMMs с помощью методов редактирования знаний и наблюдаем, что LMMs могут эффективно обновлять знания в сценариях единичного редактирования.
English
Large Multimodal Models (LMMs) encode rich factual knowledge via cross-modal
pre-training, yet their static representations struggle to maintain an accurate
understanding of time-sensitive factual knowledge. Existing benchmarks remain
constrained by static designs, inadequately evaluating LMMs' ability to
understand time-sensitive knowledge. To address this gap, we propose MINED, a
comprehensive benchmark that evaluates temporal awareness along 6 key
dimensions and 11 challenging tasks: cognition, awareness, trustworthiness,
understanding, reasoning, and robustness. MINED is constructed from Wikipedia
by two professional annotators, containing 2,104 time-sensitive knowledge
samples spanning six knowledge types. Evaluating 15 widely used LMMs on MINED
shows that Gemini-2.5-Pro achieves the highest average CEM score of 63.07,
while most open-source LMMs still lack time understanding ability. Meanwhile,
LMMs perform best on organization knowledge, whereas their performance is
weakest on sport. To address these challenges, we investigate the feasibility
of updating time-sensitive knowledge in LMMs through knowledge editing methods
and observe that LMMs can effectively update knowledge via knowledge editing
methods in single editing scenarios.