ChatPaper.aiChatPaper

MINED: Exploración y Actualización con Conocimiento Multimodal Sensible al Tiempo para Modelos Multimodales de Gran Escala

MINED: Probing and Updating with Multimodal Time-Sensitive Knowledge for Large Multimodal Models

October 22, 2025
Autores: Kailin Jiang, Ning Jiang, Yuchen Ren, Yuchen Li, Yifan Gao, Jinhe Bi, Yunpu Ma, Qingqing Liu, Xianhao Wang, Yifan Jia, Hongbo Jiang, Yaocong Hu, Bin Li, Lei Liu, Yuntao Du
cs.AI

Resumen

Los Modelos Multimodales Grandes (LMMs, por sus siglas en inglés) codifican un conocimiento factual rico mediante el preentrenamiento multimodal, sin embargo, sus representaciones estáticas luchan por mantener una comprensión precisa del conocimiento factual sensible al tiempo. Los puntos de referencia existentes siguen limitados por diseños estáticos, evaluando de manera inadecuada la capacidad de los LMMs para comprender el conocimiento sensible al tiempo. Para abordar esta brecha, proponemos MINED, un punto de referencia integral que evalúa la conciencia temporal a lo largo de 6 dimensiones clave y 11 tareas desafiantes: cognición, conciencia, confiabilidad, comprensión, razonamiento y robustez. MINED se construye a partir de Wikipedia por dos anotadores profesionales, conteniendo 2,104 muestras de conocimiento sensible al tiempo que abarcan seis tipos de conocimiento. La evaluación de 15 LMMs ampliamente utilizados en MINED muestra que Gemini-2.5-Pro alcanza el puntaje CEM promedio más alto de 63.07, mientras que la mayoría de los LMMs de código abierto aún carecen de capacidad de comprensión temporal. Mientras tanto, los LMMs tienen el mejor desempeño en el conocimiento organizacional, mientras que su desempeño es más débil en el deporte. Para abordar estos desafíos, investigamos la viabilidad de actualizar el conocimiento sensible al tiempo en los LMMs mediante métodos de edición de conocimiento y observamos que los LMMs pueden actualizar efectivamente el conocimiento a través de métodos de edición de conocimiento en escenarios de edición única.
English
Large Multimodal Models (LMMs) encode rich factual knowledge via cross-modal pre-training, yet their static representations struggle to maintain an accurate understanding of time-sensitive factual knowledge. Existing benchmarks remain constrained by static designs, inadequately evaluating LMMs' ability to understand time-sensitive knowledge. To address this gap, we propose MINED, a comprehensive benchmark that evaluates temporal awareness along 6 key dimensions and 11 challenging tasks: cognition, awareness, trustworthiness, understanding, reasoning, and robustness. MINED is constructed from Wikipedia by two professional annotators, containing 2,104 time-sensitive knowledge samples spanning six knowledge types. Evaluating 15 widely used LMMs on MINED shows that Gemini-2.5-Pro achieves the highest average CEM score of 63.07, while most open-source LMMs still lack time understanding ability. Meanwhile, LMMs perform best on organization knowledge, whereas their performance is weakest on sport. To address these challenges, we investigate the feasibility of updating time-sensitive knowledge in LMMs through knowledge editing methods and observe that LMMs can effectively update knowledge via knowledge editing methods in single editing scenarios.
PDF31October 23, 2025