MMKE-Bench: Um Benchmark de Edição Multimodal para Conhecimento Visual Diversificado
MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge
February 27, 2025
Autores: Yuntao Du, Kailin Jiang, Zhi Gao, Chenrui Shi, Zilong Zheng, Siyuan Qi, Qing Li
cs.AI
Resumo
As técnicas de edição de conhecimento surgiram como ferramentas essenciais para atualizar o conhecimento factual de grandes modelos de linguagem (LLMs) e modelos multimodais (LMMs), permitindo corrigir informações desatualizadas ou imprecisas sem a necessidade de um novo treinamento do zero. No entanto, os benchmarks existentes para edição de conhecimento multimodal focam principalmente no conhecimento ao nível de entidades representado como tripletos simples, o que não captura a complexidade das informações multimodais do mundo real. Para lidar com essa questão, apresentamos o MMKE-Bench, um abrangente Benchmark de Edição de Conhecimento MultiModal, projetado para avaliar a capacidade dos LMMs de editar conhecimento visual diverso em cenários do mundo real. O MMKE-Bench aborda essas limitações incorporando três tipos de tarefas de edição: edição de entidades visuais, edição semântica visual e edição específica do usuário. Além disso, o MMKE-Bench utiliza linguagem natural livre para representar e editar conhecimento, oferecendo um formato mais flexível e eficaz. O benchmark consiste em 2.940 peças de conhecimento e 8.363 imagens em 33 categorias amplas, com perguntas de avaliação geradas automaticamente e verificadas por humanos. Avaliamos cinco métodos de edição de conhecimento de ponta em três LMMs proeminentes, revelando que nenhum método se destaca em todos os critérios, e que as edições visuais e específicas do usuário são particularmente desafiadoras. O MMKE-Bench estabelece um novo padrão para avaliar a robustez das técnicas de edição de conhecimento multimodal, impulsionando o progresso nesse campo em rápida evolução.
English
Knowledge editing techniques have emerged as essential tools for updating the
factual knowledge of large language models (LLMs) and multimodal models (LMMs),
allowing them to correct outdated or inaccurate information without retraining
from scratch. However, existing benchmarks for multimodal knowledge editing
primarily focus on entity-level knowledge represented as simple triplets, which
fail to capture the complexity of real-world multimodal information. To address
this issue, we introduce MMKE-Bench, a comprehensive MultiModal Knowledge
Editing Benchmark, designed to evaluate the ability of LMMs to edit diverse
visual knowledge in real-world scenarios. MMKE-Bench addresses these
limitations by incorporating three types of editing tasks: visual entity
editing, visual semantic editing, and user-specific editing. Besides,
MMKE-Bench uses free-form natural language to represent and edit knowledge,
offering a more flexible and effective format. The benchmark consists of 2,940
pieces of knowledge and 8,363 images across 33 broad categories, with
evaluation questions automatically generated and human-verified. We assess five
state-of-the-art knowledge editing methods on three prominent LMMs, revealing
that no method excels across all criteria, and that visual and user-specific
edits are particularly challenging. MMKE-Bench sets a new standard for
evaluating the robustness of multimodal knowledge editing techniques, driving
progress in this rapidly evolving field.Summary
AI-Generated Summary