MoKus: Aproveitando a Transferência de Conhecimento Intermodal para a Personalização de Conceitos com Consciência Semântica

Resumo

A personalização de conceitos normalmente associa tokens raros a um conceito-alvo. Infelizmente, essas abordagens frequentemente sofrem com desempenho instável, uma vez que os dados de pré-treinamento raramente contêm esses tokens raros. Paralelamente, esses tokens raros não conseguem transmitir o conhecimento inerente ao conceito-alvo. Consequentemente, introduzimos a Personalização de Conceitos com Consciência de Conhecimento, uma nova tarefa que visa associar conhecimento textual diversificado a conceitos visuais-alvo. Esta tarefa exige que o modelo identifique o conhecimento no prompt de texto para realizar uma geração personalizada de alta fidelidade. Ao mesmo tempo, o modelo deve associar eficientemente todo o conhecimento textual ao conceito-alvo. Portanto, propomos o MoKus, uma nova estrutura para personalização de conceitos com consciência de conhecimento. Nossa estrutura baseia-se numa observação fundamental: a transferência de conhecimento cross-modal, onde a modificação do conhecimento dentro da modalidade textual transfere-se naturalmente para a modalidade visual durante a geração. Inspirados por esta observação, o MoKus contém dois estágios: (1) Na aprendizagem do conceito visual, primeiro aprendemos a representação âncora para armazenar a informação visual do conceito-alvo. (2) Na atualização do conhecimento textual, atualizamos a resposta para as consultas de conhecimento para a representação âncora, permitindo uma geração personalizada de alta fidelidade. Para avaliar mais comprehensiveamente o nosso MoKus proposto na nova tarefa, introduzimos o primeiro benchmark para personalização de conceitos com consciência de conhecimento: o KnowCusBench. Avaliações extensivas demonstraram que o MoKus supera os métodos state-of-the-art. Além disso, a transferência de conhecimento cross-modal permite que o MoKus seja facilmente estendido a outras aplicações com consciência de conhecimento, como a criação de conceitos virtuais e a remoção de conceitos. Também demonstramos a capacidade do nosso método de alcançar melhorias em benchmarks de conhecimento mundial.

English

Concept customization typically binds rare tokens to a target concept. Unfortunately, these approaches often suffer from unstable performance as the pretraining data seldom contains these rare tokens. Meanwhile, these rare tokens fail to convey the inherent knowledge of the target concept. Consequently, we introduce Knowledge-aware Concept Customization, a novel task aiming at binding diverse textual knowledge to target visual concepts. This task requires the model to identify the knowledge within the text prompt to perform high-fidelity customized generation. Meanwhile, the model should efficiently bind all the textual knowledge to the target concept. Therefore, we propose MoKus, a novel framework for knowledge-aware concept customization. Our framework relies on a key observation: cross-modal knowledge transfer, where modifying knowledge within the text modality naturally transfers to the visual modality during generation. Inspired by this observation, MoKus contains two stages: (1) In visual concept learning, we first learn the anchor representation to store the visual information of the target concept. (2) In textual knowledge updating, we update the answer for the knowledge queries to the anchor representation, enabling high-fidelity customized generation. To further comprehensively evaluate our proposed MoKus on the new task, we introduce the first benchmark for knowledge-aware concept customization: KnowCusBench. Extensive evaluations have demonstrated that MoKus outperforms state-of-the-art methods. Moreover, the cross-model knowledge transfer allows MoKus to be easily extended to other knowledge-aware applications like virtual concept creation and concept erasure. We also demonstrate the capability of our method to achieve improvements on world knowledge benchmarks.