MMKE-Bench: 다양한 시각 지식을 위한 다중 모달 편집 벤치마크
MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge
February 27, 2025
저자: Yuntao Du, Kailin Jiang, Zhi Gao, Chenrui Shi, Zilong Zheng, Siyuan Qi, Qing Li
cs.AI
초록
지식 편집 기술은 대규모 언어 모델 (LLM) 및 다중 모달 모델 (LMM)의 사실적 지식을 업데이트하는 데 중요한 도구로 등장했습니다. 이를 통해 이러한 모델들이 처음부터 재학습할 필요 없이 오래된 또는 부정확한 정보를 수정할 수 있습니다. 그러나 다중 모달 지식 편집을 위한 기존 벤치마크는 주로 간단한 삼중체로 표현된 개체 수준의 지식에 초점을 맞추어 현실 세계의 다중 모달 정보의 복잡성을 포착하지 못합니다. 이 문제를 해결하기 위해 우리는 MMKE-Bench를 소개합니다. 이는 실제 시나리오에서 LMM의 다양한 시각적 지식을 편집하는 능력을 평가하기 위해 설계된 포괄적인 MultiModal 지식 편집 벤치마크입니다. MMKE-Bench는 시각적 개체 편집, 시각적 의미 편집 및 사용자별 편집 세 가지 유형의 편집 작업을 통합하여 이러한 한계를 해결합니다. 또한 MMKE-Bench는 지식을 표현하고 편집하기 위해 자유 형식의 자연어를 사용하여 더 유연하고 효과적인 형식을 제공합니다. 이 벤치마크는 33개의 넓은 범주를 통해 2,940개의 지식 조각과 8,363개의 이미지로 구성되어 있으며, 자동으로 생성된 평가 문항과 인간 검증이 이루어집니다. 우리는 세 가지 주요 LMM에서 다섯 가지 최첨단 지식 편집 방법을 평가하여, 어떤 방법도 모든 기준에서 뛰어나지 않으며, 시각적 및 사용자별 편집이 특히 어려움을 보여줍니다. MMKE-Bench는 다중 모달 지식 편집 기술의 견고성을 평가하는 새로운 기준을 제시하여 이 분야의 발전을 주도합니다.
English
Knowledge editing techniques have emerged as essential tools for updating the
factual knowledge of large language models (LLMs) and multimodal models (LMMs),
allowing them to correct outdated or inaccurate information without retraining
from scratch. However, existing benchmarks for multimodal knowledge editing
primarily focus on entity-level knowledge represented as simple triplets, which
fail to capture the complexity of real-world multimodal information. To address
this issue, we introduce MMKE-Bench, a comprehensive MultiModal Knowledge
Editing Benchmark, designed to evaluate the ability of LMMs to edit diverse
visual knowledge in real-world scenarios. MMKE-Bench addresses these
limitations by incorporating three types of editing tasks: visual entity
editing, visual semantic editing, and user-specific editing. Besides,
MMKE-Bench uses free-form natural language to represent and edit knowledge,
offering a more flexible and effective format. The benchmark consists of 2,940
pieces of knowledge and 8,363 images across 33 broad categories, with
evaluation questions automatically generated and human-verified. We assess five
state-of-the-art knowledge editing methods on three prominent LMMs, revealing
that no method excels across all criteria, and that visual and user-specific
edits are particularly challenging. MMKE-Bench sets a new standard for
evaluating the robustness of multimodal knowledge editing techniques, driving
progress in this rapidly evolving field.Summary
AI-Generated Summary