KORE: Potenziamento dell'Iniezione di Conoscenza per Modelli Multimodali di Grande Scala tramite Aumentazioni e Vincoli Orientati alla Conoscenza

Abstract

I grandi modelli multimodali codificano un'ampia conoscenza fattuale nei loro pesi pre-addestrati. Tuttavia, tale conoscenza rimane statica e limitata, incapace di tenere il passo con gli sviluppi del mondo reale, il che ostacola l'acquisizione continua di conoscenza. L'iniezione efficace della conoscenza diventa quindi cruciale, coinvolgendo due obiettivi: l'adattamento della conoscenza (iniettare nuove conoscenze) e la ritenzione della conoscenza (preservare le conoscenze esistenti). I metodi esistenti spesso faticano ad apprendere nuove conoscenze e soffrono di oblio catastrofico. Per affrontare questo problema, proponiamo KORE, un metodo sinergico di aumentazioni e vincoli orientati alla conoscenza (KnOwledge-oRientEd) per iniettare nuove conoscenze nei grandi modelli multimodali preservando al contempo le conoscenze esistenti. A differenza dell'aumentazione generale di dati testuali o visivi, KORE converte automaticamente singoli elementi di conoscenza in conoscenza strutturata e completa, garantendo che il modello apprenda accuratamente nuove conoscenze, consentendo un adattamento preciso. Nel frattempo, KORE memorizza le conoscenze precedenti nella matrice di covarianza delle attivazioni dello strato lineare del modello multimodale e inizializza l'adattatore proiettando i pesi originali nello spazio nullo della matrice, definendo una direzione di fine-tuning che minimizza l'interferenza con le conoscenze precedenti, consentendo una potente ritenzione. Esperimenti estesi su vari modelli multimodali, tra cui LLaVA-v1.5-7B, LLaVA-v1.5-13B e Qwen2.5-VL-7B, dimostrano che KORE raggiunge prestazioni superiori nell'iniezione di nuove conoscenze e mitiga efficacemente l'oblio catastrofico.

English

Large Multimodal Models encode extensive factual knowledge in their pre-trained weights. However, its knowledge remains static and limited, unable to keep pace with real-world developments, which hinders continuous knowledge acquisition. Effective knowledge injection thus becomes critical, involving two goals: knowledge adaptation (injecting new knowledge) and knowledge retention (preserving old knowledge). Existing methods often struggle to learn new knowledge and suffer from catastrophic forgetting. To address this, we propose KORE, a synergistic method of KnOwledge-oRientEd augmentations and constraints for injecting new knowledge into large multimodal models while preserving old knowledge. Unlike general text or image data augmentation, KORE automatically converts individual knowledge items into structured and comprehensive knowledge to ensure that the model accurately learns new knowledge, enabling accurate adaptation. Meanwhile, KORE stores previous knowledge in the covariance matrix of LMM's linear layer activations and initializes the adapter by projecting the original weights into the matrix's null space, defining a fine-tuning direction that minimizes interference with previous knowledge, enabling powerful retention. Extensive experiments on various LMMs, including LLaVA-v1.5-7B, LLaVA-v1.5-13B, and Qwen2.5-VL-7B, show that KORE achieves superior new knowledge injection performance and effectively mitigates catastrophic forgetting.

KORE: Potenziamento dell'Iniezione di Conoscenza per Modelli Multimodali di Grande Scala tramite Aumentazioni e Vincoli Orientati alla Conoscenza

KORE: Enhancing Knowledge Injection for Large Multimodal Models via Knowledge-Oriented Augmentations and Constraints

Abstract

Support