ChatPaper.aiChatPaper

KORE: 知識指向の拡張と制約による大規模マルチモーダルモデルのための知識注入の強化

KORE: Enhancing Knowledge Injection for Large Multimodal Models via Knowledge-Oriented Augmentations and Constraints

October 22, 2025
著者: Kailin Jiang, Hongbo Jiang, Ning Jiang, Zhi Gao, Jinhe Bi, Yuchen Ren, Bin Li, Yuntao Du, Lei Liu, Qing Li
cs.AI

要旨

大規模マルチモーダルモデルは、事前学習された重みに膨大な事実知識をエンコードしています。しかし、その知識は静的で限定的であり、現実世界の進展に追従できないため、継続的な知識獲得が妨げられています。そのため、効果的な知識注入が重要となり、これには2つの目標が含まれます:知識適応(新たな知識の注入)と知識保持(既存の知識の維持)です。既存の手法では、新たな知識を学習することが難しく、破滅的な忘却に悩まされることが多いです。この問題に対処するため、我々はKOREを提案します。KOREは、新たな知識を大規模マルチモーダルモデルに注入しつつ、既存の知識を保持するための、知識指向の拡張と制約を組み合わせた手法です。一般的なテキストや画像データの拡張とは異なり、KOREは個々の知識項目を構造化され包括的な知識に自動的に変換し、モデルが新たな知識を正確に学習できるようにします。これにより、正確な適応が可能となります。一方で、KOREは以前の知識をLMMの線形層活性化の共分散行列に保存し、アダプタを元の重みを行列の零空間に射影することで初期化します。これにより、以前の知識との干渉を最小限に抑える微調整方向を定義し、強力な保持を可能にします。LLaVA-v1.5-7B、LLaVA-v1.5-13B、Qwen2.5-VL-7Bを含む様々なLMMでの広範な実験により、KOREが優れた新知識注入性能を達成し、破滅的な忘却を効果的に緩和することが示されました。
English
Large Multimodal Models encode extensive factual knowledge in their pre-trained weights. However, its knowledge remains static and limited, unable to keep pace with real-world developments, which hinders continuous knowledge acquisition. Effective knowledge injection thus becomes critical, involving two goals: knowledge adaptation (injecting new knowledge) and knowledge retention (preserving old knowledge). Existing methods often struggle to learn new knowledge and suffer from catastrophic forgetting. To address this, we propose KORE, a synergistic method of KnOwledge-oRientEd augmentations and constraints for injecting new knowledge into large multimodal models while preserving old knowledge. Unlike general text or image data augmentation, KORE automatically converts individual knowledge items into structured and comprehensive knowledge to ensure that the model accurately learns new knowledge, enabling accurate adaptation. Meanwhile, KORE stores previous knowledge in the covariance matrix of LMM's linear layer activations and initializes the adapter by projecting the original weights into the matrix's null space, defining a fine-tuning direction that minimizes interference with previous knowledge, enabling powerful retention. Extensive experiments on various LMMs, including LLaVA-v1.5-7B, LLaVA-v1.5-13B, and Qwen2.5-VL-7B, show that KORE achieves superior new knowledge injection performance and effectively mitigates catastrophic forgetting.
PDF51October 23, 2025