KORE: Mejora de la Inyección de Conocimiento para Modelos Multimodales de Gran Escala mediante Aumentaciones y Restricciones Orientadas al Conocimiento
KORE: Enhancing Knowledge Injection for Large Multimodal Models via Knowledge-Oriented Augmentations and Constraints
October 22, 2025
Autores: Kailin Jiang, Hongbo Jiang, Ning Jiang, Zhi Gao, Jinhe Bi, Yuchen Ren, Bin Li, Yuntao Du, Lei Liu, Qing Li
cs.AI
Resumen
Los modelos multimodales grandes codifican un amplio conocimiento factual en sus pesos preentrenados. Sin embargo, su conocimiento permanece estático y limitado, incapaz de mantenerse al día con los desarrollos del mundo real, lo que dificulta la adquisición continua de conocimiento. Por lo tanto, la inyección efectiva de conocimiento se vuelve crítica, involucrando dos objetivos: la adaptación del conocimiento (inyectar nuevo conocimiento) y la retención del conocimiento (preservar el conocimiento antiguo). Los métodos existentes a menudo luchan por aprender nuevo conocimiento y sufren de olvido catastrófico. Para abordar esto, proponemos KORE, un método sinérgico de aumentaciones y restricciones orientadas al conocimiento (KnOwledge-oRientEd) para inyectar nuevo conocimiento en modelos multimodales grandes mientras se preserva el conocimiento antiguo. A diferencia de la aumentación general de texto o imágenes, KORE convierte automáticamente elementos individuales de conocimiento en conocimiento estructurado y comprehensivo para asegurar que el modelo aprenda nuevo conocimiento de manera precisa, permitiendo una adaptación exacta. Mientras tanto, KORE almacena el conocimiento previo en la matriz de covarianza de las activaciones de la capa lineal del LMM e inicializa el adaptador proyectando los pesos originales en el espacio nulo de la matriz, definiendo una dirección de ajuste fino que minimiza la interferencia con el conocimiento previo, permitiendo una retención poderosa. Experimentos extensos en varios LMMs, incluyendo LLaVA-v1.5-7B, LLaVA-v1.5-13B y Qwen2.5-VL-7B, muestran que KORE logra un rendimiento superior en la inyección de nuevo conocimiento y mitiga efectivamente el olvido catastrófico.
English
Large Multimodal Models encode extensive factual knowledge in their
pre-trained weights. However, its knowledge remains static and limited, unable
to keep pace with real-world developments, which hinders continuous knowledge
acquisition. Effective knowledge injection thus becomes critical, involving two
goals: knowledge adaptation (injecting new knowledge) and knowledge retention
(preserving old knowledge). Existing methods often struggle to learn new
knowledge and suffer from catastrophic forgetting. To address this, we propose
KORE, a synergistic method of KnOwledge-oRientEd augmentations and constraints
for injecting new knowledge into large multimodal models while preserving old
knowledge. Unlike general text or image data augmentation, KORE automatically
converts individual knowledge items into structured and comprehensive knowledge
to ensure that the model accurately learns new knowledge, enabling accurate
adaptation. Meanwhile, KORE stores previous knowledge in the covariance matrix
of LMM's linear layer activations and initializes the adapter by projecting the
original weights into the matrix's null space, defining a fine-tuning direction
that minimizes interference with previous knowledge, enabling powerful
retention. Extensive experiments on various LMMs, including LLaVA-v1.5-7B,
LLaVA-v1.5-13B, and Qwen2.5-VL-7B, show that KORE achieves superior new
knowledge injection performance and effectively mitigates catastrophic
forgetting.