KORE: Potenziamento dell'Iniezione di Conoscenza per Modelli Multimodali di Grande Scala tramite Aumentazioni e Vincoli Orientati alla Conoscenza
KORE: Enhancing Knowledge Injection for Large Multimodal Models via Knowledge-Oriented Augmentations and Constraints
October 22, 2025
Autori: Kailin Jiang, Hongbo Jiang, Ning Jiang, Zhi Gao, Jinhe Bi, Yuchen Ren, Bin Li, Yuntao Du, Lei Liu, Qing Li
cs.AI
Abstract
I grandi modelli multimodali codificano un'ampia conoscenza fattuale nei loro pesi pre-addestrati. Tuttavia, tale conoscenza rimane statica e limitata, incapace di tenere il passo con gli sviluppi del mondo reale, il che ostacola l'acquisizione continua di conoscenza. L'iniezione efficace della conoscenza diventa quindi cruciale, coinvolgendo due obiettivi: l'adattamento della conoscenza (iniettare nuove conoscenze) e la ritenzione della conoscenza (preservare le conoscenze esistenti). I metodi esistenti spesso faticano ad apprendere nuove conoscenze e soffrono di oblio catastrofico. Per affrontare questo problema, proponiamo KORE, un metodo sinergico di aumentazioni e vincoli orientati alla conoscenza (KnOwledge-oRientEd) per iniettare nuove conoscenze nei grandi modelli multimodali preservando al contempo le conoscenze esistenti. A differenza dell'aumentazione generale di dati testuali o visivi, KORE converte automaticamente singoli elementi di conoscenza in conoscenza strutturata e completa, garantendo che il modello apprenda accuratamente nuove conoscenze, consentendo un adattamento preciso. Nel frattempo, KORE memorizza le conoscenze precedenti nella matrice di covarianza delle attivazioni dello strato lineare del modello multimodale e inizializza l'adattatore proiettando i pesi originali nello spazio nullo della matrice, definendo una direzione di fine-tuning che minimizza l'interferenza con le conoscenze precedenti, consentendo una potente ritenzione. Esperimenti estesi su vari modelli multimodali, tra cui LLaVA-v1.5-7B, LLaVA-v1.5-13B e Qwen2.5-VL-7B, dimostrano che KORE raggiunge prestazioni superiori nell'iniezione di nuove conoscenze e mitiga efficacemente l'oblio catastrofico.
English
Large Multimodal Models encode extensive factual knowledge in their
pre-trained weights. However, its knowledge remains static and limited, unable
to keep pace with real-world developments, which hinders continuous knowledge
acquisition. Effective knowledge injection thus becomes critical, involving two
goals: knowledge adaptation (injecting new knowledge) and knowledge retention
(preserving old knowledge). Existing methods often struggle to learn new
knowledge and suffer from catastrophic forgetting. To address this, we propose
KORE, a synergistic method of KnOwledge-oRientEd augmentations and constraints
for injecting new knowledge into large multimodal models while preserving old
knowledge. Unlike general text or image data augmentation, KORE automatically
converts individual knowledge items into structured and comprehensive knowledge
to ensure that the model accurately learns new knowledge, enabling accurate
adaptation. Meanwhile, KORE stores previous knowledge in the covariance matrix
of LMM's linear layer activations and initializes the adapter by projecting the
original weights into the matrix's null space, defining a fine-tuning direction
that minimizes interference with previous knowledge, enabling powerful
retention. Extensive experiments on various LMMs, including LLaVA-v1.5-7B,
LLaVA-v1.5-13B, and Qwen2.5-VL-7B, show that KORE achieves superior new
knowledge injection performance and effectively mitigates catastrophic
forgetting.