MoKus: Benutting van Cross-modale Kennisoverdracht voor Kennisbewuste Conceptaanpassing

Samenvatting

Conceptcustomisatie koppelt doorgaans zeldzame tokens aan een doelconcept. Helaas lijden deze benaderingen vaak onder instabiele prestaties, aangezien de vooraf getrainde data zelden deze zeldzame tokens bevat. Tegelijkertijd slagen deze zeldzame tokens er niet in de inherente kennis van het doelconcept over te dragen. Daarom introduceren we Knowledge-aware Concept Customization, een nieuwe taak die tot doel heeft diverse tekstuele kennis te koppelen aan visuele doelconcepten. Deze taak vereist dat het model de kennis binnen de tekstprompt identificeert om een hoogwaardige gepersonaliseerde generatie uit te voeren. Tegelijkertijd moet het model efficiënt alle tekstuele kennis aan het doelconcept binden. Daarom stellen we MoKus voor, een nieuw raamwerk voor kennisbewuste conceptcustomisatie. Ons raamwerk steunt op een cruciale observatie: kruismodale kennisoverdracht, waarbij aanpassing van kennis binnen de tekstmodaliteit van nature wordt overgedragen naar de visuele modaliteit tijdens generatie. Geïnspireerd door deze observatie omvat MoKus twee fasen: (1) In visuele conceptlearning leren we eerst de ankerrepresentatie aan om de visuele informatie van het doelconcept op te slaan. (2) In tekstuele kennisbijwerking werken we het antwoord op de kennisvragen bij naar de ankerrepresentatie, waardoor hoogwaardige gepersonaliseerde generatie mogelijk wordt. Om onze voorgestelde MoKus verder uitgebreid te evalueren voor deze nieuwe taak, introduceren we de eerste benchmark voor kennisbewuste conceptcustomisatie: KnowCusBench. Uitgebreide evaluaties hebben aangetoond dat MoKus state-of-the-art methoden overtreft. Bovendien stelt de kruismodale kennisoverdracht MoKus in staat om eenvoudig te worden uitgebreid naar andere kennisbewuste toepassingen zoals virtuele conceptcreatie en conceptverwijdering. We demonstreren ook het vermogen van onze methode om verbeteringen te bereiken op wereldkennistestbanken.

English

Concept customization typically binds rare tokens to a target concept. Unfortunately, these approaches often suffer from unstable performance as the pretraining data seldom contains these rare tokens. Meanwhile, these rare tokens fail to convey the inherent knowledge of the target concept. Consequently, we introduce Knowledge-aware Concept Customization, a novel task aiming at binding diverse textual knowledge to target visual concepts. This task requires the model to identify the knowledge within the text prompt to perform high-fidelity customized generation. Meanwhile, the model should efficiently bind all the textual knowledge to the target concept. Therefore, we propose MoKus, a novel framework for knowledge-aware concept customization. Our framework relies on a key observation: cross-modal knowledge transfer, where modifying knowledge within the text modality naturally transfers to the visual modality during generation. Inspired by this observation, MoKus contains two stages: (1) In visual concept learning, we first learn the anchor representation to store the visual information of the target concept. (2) In textual knowledge updating, we update the answer for the knowledge queries to the anchor representation, enabling high-fidelity customized generation. To further comprehensively evaluate our proposed MoKus on the new task, we introduce the first benchmark for knowledge-aware concept customization: KnowCusBench. Extensive evaluations have demonstrated that MoKus outperforms state-of-the-art methods. Moreover, the cross-model knowledge transfer allows MoKus to be easily extended to other knowledge-aware applications like virtual concept creation and concept erasure. We also demonstrate the capability of our method to achieve improvements on world knowledge benchmarks.

MoKus: Benutting van Cross-modale Kennisoverdracht voor Kennisbewuste Conceptaanpassing

MoKus: Leveraging Cross-Modal Knowledge Transfer for Knowledge-Aware Concept Customization

Samenvatting

Support