KORE: Verbetering van kennisinjectie voor grote multimodale modellen via kennisgerichte augmentaties en beperkingen
KORE: Enhancing Knowledge Injection for Large Multimodal Models via Knowledge-Oriented Augmentations and Constraints
October 22, 2025
Auteurs: Kailin Jiang, Hongbo Jiang, Ning Jiang, Zhi Gao, Jinhe Bi, Yuchen Ren, Bin Li, Yuntao Du, Lei Liu, Qing Li
cs.AI
Samenvatting
Grote multimodale modellen coderen uitgebreide feitelijke kennis in hun vooraf getrainde gewichten. Deze kennis blijft echter statisch en beperkt, en kan de ontwikkelingen in de echte wereld niet bijhouden, wat een belemmering vormt voor continue kennisverwerving. Effectieve kennisinjectie wordt daarom cruciaal, waarbij twee doelen centraal staan: kennisadaptatie (het injecteren van nieuwe kennis) en kennisretentie (het behouden van oude kennis). Bestaande methoden hebben vaak moeite met het leren van nieuwe kennis en lijden onder catastrofaal vergeten. Om dit aan te pakken, stellen we KORE voor, een synergetische methode van KnOwledge-oRientEd augmentaties en beperkingen voor het injecteren van nieuwe kennis in grote multimodale modellen, terwijl oude kennis behouden blijft. In tegenstelling tot algemene tekst- of beelddata-augmentatie, zet KORE individuele kennisitems automatisch om in gestructureerde en uitgebreide kennis om ervoor te zorgen dat het model nieuwe kennis nauwkeurig leert, wat een accurate adaptatie mogelijk maakt. Tegelijkertijd slaat KORE eerdere kennis op in de covariantiematrix van de lineaire laagactivaties van het LMM en initialiseert het de adapter door de oorspronkelijke gewichten te projecteren in de nulruimte van de matrix, waardoor een fijnafstemrichting wordt gedefinieerd die de interferentie met eerdere kennis minimaliseert, wat een krachtige retentie mogelijk maakt. Uitgebreide experimenten met verschillende LMM's, waaronder LLaVA-v1.5-7B, LLaVA-v1.5-13B en Qwen2.5-VL-7B, tonen aan dat KORE superieure prestaties levert bij het injecteren van nieuwe kennis en catastrofaal vergeten effectief vermindert.
English
Large Multimodal Models encode extensive factual knowledge in their
pre-trained weights. However, its knowledge remains static and limited, unable
to keep pace with real-world developments, which hinders continuous knowledge
acquisition. Effective knowledge injection thus becomes critical, involving two
goals: knowledge adaptation (injecting new knowledge) and knowledge retention
(preserving old knowledge). Existing methods often struggle to learn new
knowledge and suffer from catastrophic forgetting. To address this, we propose
KORE, a synergistic method of KnOwledge-oRientEd augmentations and constraints
for injecting new knowledge into large multimodal models while preserving old
knowledge. Unlike general text or image data augmentation, KORE automatically
converts individual knowledge items into structured and comprehensive knowledge
to ensure that the model accurately learns new knowledge, enabling accurate
adaptation. Meanwhile, KORE stores previous knowledge in the covariance matrix
of LMM's linear layer activations and initializes the adapter by projecting the
original weights into the matrix's null space, defining a fine-tuning direction
that minimizes interference with previous knowledge, enabling powerful
retention. Extensive experiments on various LMMs, including LLaVA-v1.5-7B,
LLaVA-v1.5-13B, and Qwen2.5-VL-7B, show that KORE achieves superior new
knowledge injection performance and effectively mitigates catastrophic
forgetting.