MMKE-Bench: Een Multimodaal Bewerkingsbenchmark voor Diverse Visuele Kennis

Samenvatting

Kennisbewerkingstechnieken zijn naar voren gekomen als essentiële tools voor het bijwerken van de feitelijke kennis van grote taalmodellen (LLM's) en multimodale modellen (LMM's), waardoor ze verouderde of onnauwkeurige informatie kunnen corrigeren zonder opnieuw te hoeven trainen vanaf nul. Bestaande benchmarks voor multimodale kennisbewerking richten zich voornamelijk op entiteitsniveau kennis die wordt weergegeven als eenvoudige drietallen, wat niet de complexiteit van multimodale informatie in de echte wereld vastlegt. Om dit probleem aan te pakken, introduceren we MMKE-Bench, een uitgebreide MultiModale Kennisbewerking Benchmark, ontworpen om de mogelijkheid van LMM's te evalueren om diverse visuele kennis in realistische scenario's te bewerken. MMKE-Bench pakt deze beperkingen aan door drie soorten bewerkingstaken op te nemen: visuele entiteitsbewerking, visuele semantische bewerking en gebruikersspecifieke bewerking. Bovendien maakt MMKE-Bench gebruik van vrije natuurlijke taal om kennis voor te stellen en te bewerken, wat een flexibeler en effectiever formaat biedt. De benchmark bestaat uit 2.940 kennisstukken en 8.363 afbeeldingen over 33 brede categorieën, met evaluatievragen die automatisch worden gegenereerd en door mensen worden geverifieerd. We beoordelen vijf toonaangevende kennisbewerkingsmethoden op drie prominente LMM's, waarbij blijkt dat geen enkele methode uitblinkt op alle criteria, en dat visuele en gebruikersspecifieke bewerkingen bijzonder uitdagend zijn. MMKE-Bench stelt een nieuwe standaard voor het evalueren van de robuustheid van multimodale kennisbewerkingstechnieken, wat de vooruitgang in dit snel evoluerende vakgebied stimuleert.

English

Knowledge editing techniques have emerged as essential tools for updating the factual knowledge of large language models (LLMs) and multimodal models (LMMs), allowing them to correct outdated or inaccurate information without retraining from scratch. However, existing benchmarks for multimodal knowledge editing primarily focus on entity-level knowledge represented as simple triplets, which fail to capture the complexity of real-world multimodal information. To address this issue, we introduce MMKE-Bench, a comprehensive MultiModal Knowledge Editing Benchmark, designed to evaluate the ability of LMMs to edit diverse visual knowledge in real-world scenarios. MMKE-Bench addresses these limitations by incorporating three types of editing tasks: visual entity editing, visual semantic editing, and user-specific editing. Besides, MMKE-Bench uses free-form natural language to represent and edit knowledge, offering a more flexible and effective format. The benchmark consists of 2,940 pieces of knowledge and 8,363 images across 33 broad categories, with evaluation questions automatically generated and human-verified. We assess five state-of-the-art knowledge editing methods on three prominent LMMs, revealing that no method excels across all criteria, and that visual and user-specific edits are particularly challenging. MMKE-Bench sets a new standard for evaluating the robustness of multimodal knowledge editing techniques, driving progress in this rapidly evolving field.

MMKE-Bench: Een Multimodaal Bewerkingsbenchmark voor Diverse Visuele Kennis

MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge

Samenvatting

Support