MINED: Investigação e Atualização com Conhecimento Multimodal Sensível ao Tempo para Modelos Multimodais de Grande Escala
MINED: Probing and Updating with Multimodal Time-Sensitive Knowledge for Large Multimodal Models
October 22, 2025
Autores: Kailin Jiang, Ning Jiang, Yuchen Ren, Yuchen Li, Yifan Gao, Jinhe Bi, Yunpu Ma, Qingqing Liu, Xianhao Wang, Yifan Jia, Hongbo Jiang, Yaocong Hu, Bin Li, Lei Liu, Yuntao Du
cs.AI
Resumo
Modelos Multimodais de Grande Escala (LMMs) codificam conhecimento factual rico por meio de pré-treinamento multimodal, mas suas representações estáticas lutam para manter uma compreensão precisa de conhecimentos factuais sensíveis ao tempo. Os benchmarks existentes permanecem limitados por designs estáticos, avaliando de forma inadequada a capacidade dos LMMs de entender conhecimentos sensíveis ao tempo. Para abordar essa lacuna, propomos MINED, um benchmark abrangente que avalia a consciência temporal ao longo de 6 dimensões-chave e 11 tarefas desafiadoras: cognição, consciência, confiabilidade, compreensão, raciocínio e robustez. O MINED é construído a partir da Wikipedia por dois anotadores profissionais, contendo 2.104 amostras de conhecimento sensível ao tempo abrangendo seis tipos de conhecimento. A avaliação de 15 LMMs amplamente utilizados no MINED mostra que o Gemini-2.5-Pro alcança a maior pontuação média CEM de 63,07, enquanto a maioria dos LMMs de código aberto ainda carece de capacidade de entendimento temporal. Enquanto isso, os LMMs têm o melhor desempenho em conhecimento organizacional, enquanto seu desempenho é mais fraco em esportes. Para enfrentar esses desafios, investigamos a viabilidade de atualizar conhecimentos sensíveis ao tempo em LMMs por meio de métodos de edição de conhecimento e observamos que os LMMs podem efetivamente atualizar o conhecimento via métodos de edição de conhecimento em cenários de edição única.
English
Large Multimodal Models (LMMs) encode rich factual knowledge via cross-modal
pre-training, yet their static representations struggle to maintain an accurate
understanding of time-sensitive factual knowledge. Existing benchmarks remain
constrained by static designs, inadequately evaluating LMMs' ability to
understand time-sensitive knowledge. To address this gap, we propose MINED, a
comprehensive benchmark that evaluates temporal awareness along 6 key
dimensions and 11 challenging tasks: cognition, awareness, trustworthiness,
understanding, reasoning, and robustness. MINED is constructed from Wikipedia
by two professional annotators, containing 2,104 time-sensitive knowledge
samples spanning six knowledge types. Evaluating 15 widely used LMMs on MINED
shows that Gemini-2.5-Pro achieves the highest average CEM score of 63.07,
while most open-source LMMs still lack time understanding ability. Meanwhile,
LMMs perform best on organization knowledge, whereas their performance is
weakest on sport. To address these challenges, we investigate the feasibility
of updating time-sensitive knowledge in LMMs through knowledge editing methods
and observe that LMMs can effectively update knowledge via knowledge editing
methods in single editing scenarios.