KORE : Amélioration de l'injection de connaissances pour les grands modèles multimodaux via des augmentations et des contraintes orientées connaissances
KORE: Enhancing Knowledge Injection for Large Multimodal Models via Knowledge-Oriented Augmentations and Constraints
October 22, 2025
papers.authors: Kailin Jiang, Hongbo Jiang, Ning Jiang, Zhi Gao, Jinhe Bi, Yuchen Ren, Bin Li, Yuntao Du, Lei Liu, Qing Li
cs.AI
papers.abstract
Les grands modèles multimodaux encodent une vaste connaissance factuelle dans leurs poids pré-entraînés. Cependant, cette connaissance reste statique et limitée, incapable de suivre les évolutions du monde réel, ce qui entrave l'acquisition continue de connaissances. L'injection efficace de connaissances devient donc cruciale, impliquant deux objectifs : l'adaptation des connaissances (injection de nouvelles connaissances) et la rétention des connaissances (préservation des anciennes connaissances). Les méthodes existantes peinent souvent à apprendre de nouvelles connaissances et souffrent d'oubli catastrophique. Pour résoudre ce problème, nous proposons KORE, une méthode synergique d'augmentations et de contraintes orientées vers la connaissance (KnOwledge-oRientEd) pour injecter de nouvelles connaissances dans les grands modèles multimodaux tout en préservant les anciennes. Contrairement à l'augmentation générale des données textuelles ou visuelles, KORE convertit automatiquement les éléments de connaissance individuels en une connaissance structurée et complète pour garantir que le modèle apprenne avec précision les nouvelles connaissances, permettant une adaptation précise. Parallèlement, KORE stocke les connaissances précédentes dans la matrice de covariance des activations de la couche linéaire du modèle multimodal et initialise l'adaptateur en projetant les poids originaux dans l'espace nul de cette matrice, définissant une direction de réglage fin qui minimise l'interférence avec les connaissances précédentes, permettant une rétention puissante. Des expériences approfondies sur divers modèles multimodaux, notamment LLaVA-v1.5-7B, LLaVA-v1.5-13B et Qwen2.5-VL-7B, montrent que KORE atteint une performance supérieure dans l'injection de nouvelles connaissances et atténue efficacement l'oubli catastrophique.
English
Large Multimodal Models encode extensive factual knowledge in their
pre-trained weights. However, its knowledge remains static and limited, unable
to keep pace with real-world developments, which hinders continuous knowledge
acquisition. Effective knowledge injection thus becomes critical, involving two
goals: knowledge adaptation (injecting new knowledge) and knowledge retention
(preserving old knowledge). Existing methods often struggle to learn new
knowledge and suffer from catastrophic forgetting. To address this, we propose
KORE, a synergistic method of KnOwledge-oRientEd augmentations and constraints
for injecting new knowledge into large multimodal models while preserving old
knowledge. Unlike general text or image data augmentation, KORE automatically
converts individual knowledge items into structured and comprehensive knowledge
to ensure that the model accurately learns new knowledge, enabling accurate
adaptation. Meanwhile, KORE stores previous knowledge in the covariance matrix
of LMM's linear layer activations and initializes the adapter by projecting the
original weights into the matrix's null space, defining a fine-tuning direction
that minimizes interference with previous knowledge, enabling powerful
retention. Extensive experiments on various LMMs, including LLaVA-v1.5-7B,
LLaVA-v1.5-13B, and Qwen2.5-VL-7B, show that KORE achieves superior new
knowledge injection performance and effectively mitigates catastrophic
forgetting.