MMKE-Bench: Um Benchmark de Edição Multimodal para Conhecimento Visual Diversificado

Resumo

As técnicas de edição de conhecimento surgiram como ferramentas essenciais para atualizar o conhecimento factual de grandes modelos de linguagem (LLMs) e modelos multimodais (LMMs), permitindo corrigir informações desatualizadas ou imprecisas sem a necessidade de um novo treinamento do zero. No entanto, os benchmarks existentes para edição de conhecimento multimodal focam principalmente no conhecimento ao nível de entidades representado como tripletos simples, o que não captura a complexidade das informações multimodais do mundo real. Para lidar com essa questão, apresentamos o MMKE-Bench, um abrangente Benchmark de Edição de Conhecimento MultiModal, projetado para avaliar a capacidade dos LMMs de editar conhecimento visual diverso em cenários do mundo real. O MMKE-Bench aborda essas limitações incorporando três tipos de tarefas de edição: edição de entidades visuais, edição semântica visual e edição específica do usuário. Além disso, o MMKE-Bench utiliza linguagem natural livre para representar e editar conhecimento, oferecendo um formato mais flexível e eficaz. O benchmark consiste em 2.940 peças de conhecimento e 8.363 imagens em 33 categorias amplas, com perguntas de avaliação geradas automaticamente e verificadas por humanos. Avaliamos cinco métodos de edição de conhecimento de ponta em três LMMs proeminentes, revelando que nenhum método se destaca em todos os critérios, e que as edições visuais e específicas do usuário são particularmente desafiadoras. O MMKE-Bench estabelece um novo padrão para avaliar a robustez das técnicas de edição de conhecimento multimodal, impulsionando o progresso nesse campo em rápida evolução.

English

Knowledge editing techniques have emerged as essential tools for updating the factual knowledge of large language models (LLMs) and multimodal models (LMMs), allowing them to correct outdated or inaccurate information without retraining from scratch. However, existing benchmarks for multimodal knowledge editing primarily focus on entity-level knowledge represented as simple triplets, which fail to capture the complexity of real-world multimodal information. To address this issue, we introduce MMKE-Bench, a comprehensive MultiModal Knowledge Editing Benchmark, designed to evaluate the ability of LMMs to edit diverse visual knowledge in real-world scenarios. MMKE-Bench addresses these limitations by incorporating three types of editing tasks: visual entity editing, visual semantic editing, and user-specific editing. Besides, MMKE-Bench uses free-form natural language to represent and edit knowledge, offering a more flexible and effective format. The benchmark consists of 2,940 pieces of knowledge and 8,363 images across 33 broad categories, with evaluation questions automatically generated and human-verified. We assess five state-of-the-art knowledge editing methods on three prominent LMMs, revealing that no method excels across all criteria, and that visual and user-specific edits are particularly challenging. MMKE-Bench sets a new standard for evaluating the robustness of multimodal knowledge editing techniques, driving progress in this rapidly evolving field.

MMKE-Bench: Um Benchmark de Edição Multimodal para Conhecimento Visual Diversificado

MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge

Resumo

Support