ChatPaper.aiChatPaper

MINED : Exploration et mise à jour avec des connaissances multimodales sensibles au temps pour les grands modèles multimodaux

MINED: Probing and Updating with Multimodal Time-Sensitive Knowledge for Large Multimodal Models

October 22, 2025
papers.authors: Kailin Jiang, Ning Jiang, Yuchen Ren, Yuchen Li, Yifan Gao, Jinhe Bi, Yunpu Ma, Qingqing Liu, Xianhao Wang, Yifan Jia, Hongbo Jiang, Yaocong Hu, Bin Li, Lei Liu, Yuntao Du
cs.AI

papers.abstract

Les modèles multimodaux de grande taille (LMMs) encodent des connaissances factuelles riches grâce à un pré-entraînement intermodal, mais leurs représentations statiques peinent à maintenir une compréhension précise des connaissances factuelles sensibles au temps. Les benchmarks existants restent limités par des conceptions statiques, évaluant de manière inadéquate la capacité des LMMs à comprendre les connaissances temporelles. Pour combler cette lacune, nous proposons MINED, un benchmark complet qui évalue la conscience temporelle selon 6 dimensions clés et 11 tâches complexes : cognition, conscience, fiabilité, compréhension, raisonnement et robustesse. MINED est construit à partir de Wikipédia par deux annotateurs professionnels, contenant 2 104 échantillons de connaissances sensibles au temps couvrant six types de connaissances. L'évaluation de 15 LMMs largement utilisés sur MINED montre que Gemini-2.5-Pro atteint le score CEM moyen le plus élevé de 63,07, tandis que la plupart des LMMs open source manquent encore de capacité de compréhension temporelle. Par ailleurs, les LMMs obtiennent les meilleures performances sur les connaissances organisationnelles, tandis que leurs performances sont les plus faibles dans le domaine du sport. Pour relever ces défis, nous étudions la faisabilité de la mise à jour des connaissances sensibles au temps dans les LMMs grâce à des méthodes d'édition de connaissances et observons que les LMMs peuvent effectivement mettre à jour les connaissances via ces méthodes dans des scénarios d'édition unique.
English
Large Multimodal Models (LMMs) encode rich factual knowledge via cross-modal pre-training, yet their static representations struggle to maintain an accurate understanding of time-sensitive factual knowledge. Existing benchmarks remain constrained by static designs, inadequately evaluating LMMs' ability to understand time-sensitive knowledge. To address this gap, we propose MINED, a comprehensive benchmark that evaluates temporal awareness along 6 key dimensions and 11 challenging tasks: cognition, awareness, trustworthiness, understanding, reasoning, and robustness. MINED is constructed from Wikipedia by two professional annotators, containing 2,104 time-sensitive knowledge samples spanning six knowledge types. Evaluating 15 widely used LMMs on MINED shows that Gemini-2.5-Pro achieves the highest average CEM score of 63.07, while most open-source LMMs still lack time understanding ability. Meanwhile, LMMs perform best on organization knowledge, whereas their performance is weakest on sport. To address these challenges, we investigate the feasibility of updating time-sensitive knowledge in LMMs through knowledge editing methods and observe that LMMs can effectively update knowledge via knowledge editing methods in single editing scenarios.
PDF31October 23, 2025