KORE: 지식 지향적 증강 및 제약을 통한 대규모 멀티모달 모델의 지식 주입 강화
KORE: Enhancing Knowledge Injection for Large Multimodal Models via Knowledge-Oriented Augmentations and Constraints
October 22, 2025
저자: Kailin Jiang, Hongbo Jiang, Ning Jiang, Zhi Gao, Jinhe Bi, Yuchen Ren, Bin Li, Yuntao Du, Lei Liu, Qing Li
cs.AI
초록
대규모 멀티모달 모델(Large Multimodal Models, LMM)은 사전 학습된 가중치에 방대한 사실적 지식을 인코딩합니다. 그러나 이러한 지식은 정적이며 제한적이어서 실세계의 변화를 따라가지 못하며, 이는 지속적인 지식 습득을 방해합니다. 따라서 효과적인 지식 주입은 두 가지 목표를 포함하여 매우 중요해졌습니다: 지식 적응(새로운 지식 주입)과 지식 보존(기존 지식 유지). 기존 방법들은 새로운 지식을 학습하는 데 어려움을 겪으며, 치명적인 망각(catastrophic forgetting) 문제를 겪곤 합니다. 이를 해결하기 위해, 우리는 KORE(KnOwledge-oRientEd)라는 방법을 제안합니다. 이는 새로운 지식을 대규모 멀티모달 모델에 주입하면서 기존 지식을 보존하기 위한 구조화된 지식 증강 및 제약 조건의 시너지 방법입니다. 일반적인 텍스트 또는 이미지 데이터 증강과 달리, KORE는 개별 지식 항목을 구조화되고 포괄적인 지식으로 자동 변환하여 모델이 새로운 지식을 정확히 학습하도록 보장함으로써 정확한 적응을 가능하게 합니다. 동시에, KORE는 이전 지식을 LMM의 선형 계층 활성화의 공분산 행렬에 저장하고, 어댑터를 원래 가중치를 행렬의 영공간(null space)에 투영하여 초기화함으로써, 이전 지식과의 간섭을 최소화하는 미세 조정 방향을 정의하여 강력한 보존을 가능하게 합니다. LLaVA-v1.5-7B, LLaVA-v1.5-13B, Qwen2.5-VL-7B 등 다양한 LMM에 대한 광범위한 실험을 통해 KORE가 우수한 새로운 지식 주입 성능을 달성하고 치명적인 망각을 효과적으로 완화함을 보여줍니다.
English
Large Multimodal Models encode extensive factual knowledge in their
pre-trained weights. However, its knowledge remains static and limited, unable
to keep pace with real-world developments, which hinders continuous knowledge
acquisition. Effective knowledge injection thus becomes critical, involving two
goals: knowledge adaptation (injecting new knowledge) and knowledge retention
(preserving old knowledge). Existing methods often struggle to learn new
knowledge and suffer from catastrophic forgetting. To address this, we propose
KORE, a synergistic method of KnOwledge-oRientEd augmentations and constraints
for injecting new knowledge into large multimodal models while preserving old
knowledge. Unlike general text or image data augmentation, KORE automatically
converts individual knowledge items into structured and comprehensive knowledge
to ensure that the model accurately learns new knowledge, enabling accurate
adaptation. Meanwhile, KORE stores previous knowledge in the covariance matrix
of LMM's linear layer activations and initializes the adapter by projecting the
original weights into the matrix's null space, defining a fine-tuning direction
that minimizes interference with previous knowledge, enabling powerful
retention. Extensive experiments on various LMMs, including LLaVA-v1.5-7B,
LLaVA-v1.5-13B, and Qwen2.5-VL-7B, show that KORE achieves superior new
knowledge injection performance and effectively mitigates catastrophic
forgetting.