ChatPaper.aiChatPaper

KORE: Aprimorando a Injeção de Conhecimento para Modelos Multimodais de Grande Escala por meio de Aumentações e Restrições Orientadas ao Conhecimento

KORE: Enhancing Knowledge Injection for Large Multimodal Models via Knowledge-Oriented Augmentations and Constraints

October 22, 2025
Autores: Kailin Jiang, Hongbo Jiang, Ning Jiang, Zhi Gao, Jinhe Bi, Yuchen Ren, Bin Li, Yuntao Du, Lei Liu, Qing Li
cs.AI

Resumo

Grandes Modelos Multimodais codificam um extenso conhecimento factual em seus pesos pré-treinados. No entanto, esse conhecimento permanece estático e limitado, incapaz de acompanhar os desenvolvimentos do mundo real, o que dificulta a aquisição contínua de conhecimento. A injeção eficaz de conhecimento torna-se, portanto, crítica, envolvendo dois objetivos: adaptação de conhecimento (injetar novo conhecimento) e retenção de conhecimento (preservar o conhecimento antigo). Os métodos existentes frequentemente lutam para aprender novos conhecimentos e sofrem com o esquecimento catastrófico. Para resolver isso, propomos o KORE, um método sinérgico de aumentos e restrições orientados ao conhecimento (KnOwledge-oRientEd) para injetar novos conhecimentos em grandes modelos multimodais enquanto preserva o conhecimento antigo. Diferente da ampliação geral de texto ou imagem, o KORE converte automaticamente itens individuais de conhecimento em conhecimento estruturado e abrangente para garantir que o modelo aprenda novos conhecimentos com precisão, permitindo uma adaptação precisa. Enquanto isso, o KORE armazena o conhecimento anterior na matriz de covariância das ativações da camada linear do LMM e inicializa o adaptador projetando os pesos originais no espaço nulo da matriz, definindo uma direção de ajuste fino que minimiza a interferência com o conhecimento anterior, permitindo uma retenção poderosa. Experimentos extensivos em vários LMMs, incluindo LLaVA-v1.5-7B, LLaVA-v1.5-13B e Qwen2.5-VL-7B, mostram que o KORE alcança um desempenho superior na injeção de novos conhecimentos e mitiga efetivamente o esquecimento catastrófico.
English
Large Multimodal Models encode extensive factual knowledge in their pre-trained weights. However, its knowledge remains static and limited, unable to keep pace with real-world developments, which hinders continuous knowledge acquisition. Effective knowledge injection thus becomes critical, involving two goals: knowledge adaptation (injecting new knowledge) and knowledge retention (preserving old knowledge). Existing methods often struggle to learn new knowledge and suffer from catastrophic forgetting. To address this, we propose KORE, a synergistic method of KnOwledge-oRientEd augmentations and constraints for injecting new knowledge into large multimodal models while preserving old knowledge. Unlike general text or image data augmentation, KORE automatically converts individual knowledge items into structured and comprehensive knowledge to ensure that the model accurately learns new knowledge, enabling accurate adaptation. Meanwhile, KORE stores previous knowledge in the covariance matrix of LMM's linear layer activations and initializes the adapter by projecting the original weights into the matrix's null space, defining a fine-tuning direction that minimizes interference with previous knowledge, enabling powerful retention. Extensive experiments on various LMMs, including LLaVA-v1.5-7B, LLaVA-v1.5-13B, and Qwen2.5-VL-7B, show that KORE achieves superior new knowledge injection performance and effectively mitigates catastrophic forgetting.
PDF51October 23, 2025