Generaliseren tekstbewerkingen naar visuele generatie? Benchmarking van cross-modale kennisediting in UMM's

Samenvatting

Unified multimodale modellen (UMM's) zijn naar voren gekomen als een veelbelovend paradigma voor algemene multimodale intelligentie. Nu ze in praktijktoepassingen worden ingezet, wordt het effectief bijwerken van interne kennis cruciaal. Hoewel kenniseditatie voor tekstgebaseerde modellen volwassen is geworden, blijft het onduidelijk of bewerkingen die tekstuele outputs succesvol aanpassen ook overdragen naar beeldgeneratie in UMM's. Om deze vraag te bestuderen introduceren we UniKE, de eerste benchmark voor crossmodale kenniseditatie in UMM's, bestaande uit 2.971 bewerkingssubjecten die zowel attribuut- als relatiebewerkingen omvatten. Met behulp van VQA-gebaseerde visuele verificatie onthullen we een opvallende modaliteitskloof: de effectiviteit aan de tekstzijde kan ongeveer 92% bereiken, terwijl de beste algehele VQA-nauwkeurigheid onder directe beeldgeneratie slechts 18,5% is. We stellen verder Redeneringsverrijkte Parameterbewerking voor, die bewerkte kennis expliciet activeert vóór generatie en de algehele VQA-nauwkeurigheid voor alle geëvalueerde model-editor-paren verbetert, met winsten tot 18,6 procentpunt. Mechanistische analyse toont aan dat deze kloof samenhangt met gedeeltelijke afstemming tussen bewerkte tekstuele representaties en de conditioneringspaden voor visuele generatie, waarbij bewerkingen die voldoende zijn voor tekstoutputs te zwak of verkeerd uitgelijnd kunnen blijven om beeldsynthese te sturen. Deze bevindingen tonen aan dat tekstuele kenniseditaties geen betrouwbare crossmodale overdracht garanderen en motiveren modaliteitsbewuste bewerkingsmethoden. Onze code en gegevens zijn beschikbaar op https://github.com/gxx27/UniKE.

English

Unified multimodal models (UMMs) have emerged as a promising paradigm for general-purpose multimodal intelligence. As they are deployed in real-world applications, effectively updating internal knowledge becomes critical. While knowledge editing has matured for text-only models, it remains unclear whether edits that successfully modify textual outputs also transfer to image generation in UMMs. To study this question, we introduce UniKE, the first benchmark for cross-modality knowledge editing in UMMs, comprising 2,971 edit subjects spanning attribute and relation edits. Using VQA-based visual verification, we reveal a striking modality gap: text-side efficacy can reach approximately 92%, whereas the best overall VQA accuracy under direct image generation is only 18.5%. We further propose Reasoning-augmented Parameter Editing, which explicitly activates edited knowledge before generation and improves overall VQA accuracy for all evaluated model-editor pairs, with gains up to 18.6 percentage points. Mechanistic analysis shows that this gap is associated with partial alignment between edited textual representations and the conditioning pathways for visual generation, where edits sufficient for text outputs may remain too weak or misaligned to steer image synthesis. These findings show that textual knowledge edits do not guarantee reliable cross-modality transfer and motivate modality-aware editing methods. Our code and data are available at https://github.com/gxx27/UniKE.