KORE: Verbetering van kennisinjectie voor grote multimodale modellen via kennisgerichte augmentaties en beperkingen

Samenvatting

Grote multimodale modellen coderen uitgebreide feitelijke kennis in hun vooraf getrainde gewichten. Deze kennis blijft echter statisch en beperkt, en kan de ontwikkelingen in de echte wereld niet bijhouden, wat een belemmering vormt voor continue kennisverwerving. Effectieve kennisinjectie wordt daarom cruciaal, waarbij twee doelen centraal staan: kennisadaptatie (het injecteren van nieuwe kennis) en kennisretentie (het behouden van oude kennis). Bestaande methoden hebben vaak moeite met het leren van nieuwe kennis en lijden onder catastrofaal vergeten. Om dit aan te pakken, stellen we KORE voor, een synergetische methode van KnOwledge-oRientEd augmentaties en beperkingen voor het injecteren van nieuwe kennis in grote multimodale modellen, terwijl oude kennis behouden blijft. In tegenstelling tot algemene tekst- of beelddata-augmentatie, zet KORE individuele kennisitems automatisch om in gestructureerde en uitgebreide kennis om ervoor te zorgen dat het model nieuwe kennis nauwkeurig leert, wat een accurate adaptatie mogelijk maakt. Tegelijkertijd slaat KORE eerdere kennis op in de covariantiematrix van de lineaire laagactivaties van het LMM en initialiseert het de adapter door de oorspronkelijke gewichten te projecteren in de nulruimte van de matrix, waardoor een fijnafstemrichting wordt gedefinieerd die de interferentie met eerdere kennis minimaliseert, wat een krachtige retentie mogelijk maakt. Uitgebreide experimenten met verschillende LMM's, waaronder LLaVA-v1.5-7B, LLaVA-v1.5-13B en Qwen2.5-VL-7B, tonen aan dat KORE superieure prestaties levert bij het injecteren van nieuwe kennis en catastrofaal vergeten effectief vermindert.

English

Large Multimodal Models encode extensive factual knowledge in their pre-trained weights. However, its knowledge remains static and limited, unable to keep pace with real-world developments, which hinders continuous knowledge acquisition. Effective knowledge injection thus becomes critical, involving two goals: knowledge adaptation (injecting new knowledge) and knowledge retention (preserving old knowledge). Existing methods often struggle to learn new knowledge and suffer from catastrophic forgetting. To address this, we propose KORE, a synergistic method of KnOwledge-oRientEd augmentations and constraints for injecting new knowledge into large multimodal models while preserving old knowledge. Unlike general text or image data augmentation, KORE automatically converts individual knowledge items into structured and comprehensive knowledge to ensure that the model accurately learns new knowledge, enabling accurate adaptation. Meanwhile, KORE stores previous knowledge in the covariance matrix of LMM's linear layer activations and initializes the adapter by projecting the original weights into the matrix's null space, defining a fine-tuning direction that minimizes interference with previous knowledge, enabling powerful retention. Extensive experiments on various LMMs, including LLaVA-v1.5-7B, LLaVA-v1.5-13B, and Qwen2.5-VL-7B, show that KORE achieves superior new knowledge injection performance and effectively mitigates catastrophic forgetting.

KORE: Verbetering van kennisinjectie voor grote multimodale modellen via kennisgerichte augmentaties en beperkingen

KORE: Enhancing Knowledge Injection for Large Multimodal Models via Knowledge-Oriented Augmentations and Constraints

Samenvatting

Support