KORE: Улучшение внедрения знаний в крупные мультимодальные модели с помощью ориентированных на знания аугментаций и ограничений
KORE: Enhancing Knowledge Injection for Large Multimodal Models via Knowledge-Oriented Augmentations and Constraints
October 22, 2025
Авторы: Kailin Jiang, Hongbo Jiang, Ning Jiang, Zhi Gao, Jinhe Bi, Yuchen Ren, Bin Li, Yuntao Du, Lei Liu, Qing Li
cs.AI
Аннотация
Крупные мультимодальные модели кодируют обширные фактические знания в своих предварительно обученных весах. Однако их знания остаются статичными и ограниченными, неспособными успевать за изменениями в реальном мире, что препятствует непрерывному приобретению знаний. Таким образом, эффективное внедрение знаний становится критически важным, включая две цели: адаптацию знаний (внедрение новых знаний) и сохранение знаний (сохранение старых знаний). Существующие методы часто испытывают трудности с изучением новых знаний и страдают от катастрофического забывания. Для решения этой проблемы мы предлагаем KORE, синергетический метод, основанный на KnOwledge-oRientEd аугментациях и ограничениях, для внедрения новых знаний в крупные мультимодальные модели при сохранении старых знаний. В отличие от общей аугментации текстовых или изображений, KORE автоматически преобразует отдельные элементы знаний в структурированные и всеобъемлющие знания, чтобы обеспечить точное изучение новых знаний моделью, что позволяет точную адаптацию. В то же время KORE сохраняет предыдущие знания в ковариационной матрице активаций линейного слоя LMM и инициализирует адаптер, проецируя исходные веса в нулевое пространство матрицы, определяя направление тонкой настройки, которое минимизирует вмешательство в предыдущие знания, обеспечивая мощное сохранение. Многочисленные эксперименты на различных LMM, включая LLaVA-v1.5-7B, LLaVA-v1.5-13B и Qwen2.5-VL-7B, показывают, что KORE достигает превосходной производительности при внедрении новых знаний и эффективно смягчает катастрофическое забывание.
English
Large Multimodal Models encode extensive factual knowledge in their
pre-trained weights. However, its knowledge remains static and limited, unable
to keep pace with real-world developments, which hinders continuous knowledge
acquisition. Effective knowledge injection thus becomes critical, involving two
goals: knowledge adaptation (injecting new knowledge) and knowledge retention
(preserving old knowledge). Existing methods often struggle to learn new
knowledge and suffer from catastrophic forgetting. To address this, we propose
KORE, a synergistic method of KnOwledge-oRientEd augmentations and constraints
for injecting new knowledge into large multimodal models while preserving old
knowledge. Unlike general text or image data augmentation, KORE automatically
converts individual knowledge items into structured and comprehensive knowledge
to ensure that the model accurately learns new knowledge, enabling accurate
adaptation. Meanwhile, KORE stores previous knowledge in the covariance matrix
of LMM's linear layer activations and initializes the adapter by projecting the
original weights into the matrix's null space, defining a fine-tuning direction
that minimizes interference with previous knowledge, enabling powerful
retention. Extensive experiments on various LMMs, including LLaVA-v1.5-7B,
LLaVA-v1.5-13B, and Qwen2.5-VL-7B, show that KORE achieves superior new
knowledge injection performance and effectively mitigates catastrophic
forgetting.