MMKE-Bench: Een Multimodaal Bewerkingsbenchmark voor Diverse Visuele Kennis
MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge
February 27, 2025
Auteurs: Yuntao Du, Kailin Jiang, Zhi Gao, Chenrui Shi, Zilong Zheng, Siyuan Qi, Qing Li
cs.AI
Samenvatting
Kennisbewerkingstechnieken zijn naar voren gekomen als essentiële tools voor het bijwerken van de feitelijke kennis van grote taalmodellen (LLM's) en multimodale modellen (LMM's), waardoor ze verouderde of onnauwkeurige informatie kunnen corrigeren zonder opnieuw te hoeven trainen vanaf nul. Bestaande benchmarks voor multimodale kennisbewerking richten zich voornamelijk op entiteitsniveau kennis die wordt weergegeven als eenvoudige drietallen, wat niet de complexiteit van multimodale informatie in de echte wereld vastlegt. Om dit probleem aan te pakken, introduceren we MMKE-Bench, een uitgebreide MultiModale Kennisbewerking Benchmark, ontworpen om de mogelijkheid van LMM's te evalueren om diverse visuele kennis in realistische scenario's te bewerken. MMKE-Bench pakt deze beperkingen aan door drie soorten bewerkingstaken op te nemen: visuele entiteitsbewerking, visuele semantische bewerking en gebruikersspecifieke bewerking. Bovendien maakt MMKE-Bench gebruik van vrije natuurlijke taal om kennis voor te stellen en te bewerken, wat een flexibeler en effectiever formaat biedt. De benchmark bestaat uit 2.940 kennisstukken en 8.363 afbeeldingen over 33 brede categorieën, met evaluatievragen die automatisch worden gegenereerd en door mensen worden geverifieerd. We beoordelen vijf toonaangevende kennisbewerkingsmethoden op drie prominente LMM's, waarbij blijkt dat geen enkele methode uitblinkt op alle criteria, en dat visuele en gebruikersspecifieke bewerkingen bijzonder uitdagend zijn. MMKE-Bench stelt een nieuwe standaard voor het evalueren van de robuustheid van multimodale kennisbewerkingstechnieken, wat de vooruitgang in dit snel evoluerende vakgebied stimuleert.
English
Knowledge editing techniques have emerged as essential tools for updating the
factual knowledge of large language models (LLMs) and multimodal models (LMMs),
allowing them to correct outdated or inaccurate information without retraining
from scratch. However, existing benchmarks for multimodal knowledge editing
primarily focus on entity-level knowledge represented as simple triplets, which
fail to capture the complexity of real-world multimodal information. To address
this issue, we introduce MMKE-Bench, a comprehensive MultiModal Knowledge
Editing Benchmark, designed to evaluate the ability of LMMs to edit diverse
visual knowledge in real-world scenarios. MMKE-Bench addresses these
limitations by incorporating three types of editing tasks: visual entity
editing, visual semantic editing, and user-specific editing. Besides,
MMKE-Bench uses free-form natural language to represent and edit knowledge,
offering a more flexible and effective format. The benchmark consists of 2,940
pieces of knowledge and 8,363 images across 33 broad categories, with
evaluation questions automatically generated and human-verified. We assess five
state-of-the-art knowledge editing methods on three prominent LMMs, revealing
that no method excels across all criteria, and that visual and user-specific
edits are particularly challenging. MMKE-Bench sets a new standard for
evaluating the robustness of multimodal knowledge editing techniques, driving
progress in this rapidly evolving field.