MoKus : Exploiter le transfert de connaissances intermodales pour la personnalisation de concepts conscients du savoir

Résumé

La personnalisation de concepts lie généralement des tokens rares à un concept cible. Malheureusement, ces approches souffrent souvent de performances instables, car les données de pré-entraînement contiennent rarement ces tokens rares. Par ailleurs, ces tokens rares ne parviennent pas à transmettre la connaissance inhérente au concept cible. Par conséquent, nous introduisons la personnalisation de concepts sensible à la connaissance, une nouvelle tâche visant à lier des connaissances textuelles diverses à des concepts visuels cibles. Cette tâche nécessite que le modèle identifie la connaissance dans l'invite textuelle pour réaliser une génération personnalisée haute fidélité. Parallèlement, le modèle doit lier efficacement l'ensemble des connaissances textuelles au concept cible. C'est pourquoi nous proposons MoKus, un nouveau cadre pour la personnalisation de concepts sensible à la connaissance. Notre cadre repose sur une observation clé : le transfert de connaissances intermodales, où la modification des connaissances dans la modalité textuelle se transfère naturellement à la modalité visuelle lors de la génération. Inspiré par cette observation, MoKus comprend deux étapes : (1) Dans l'apprentissage du concept visuel, nous apprenons d'abord la représentation d'ancrage pour stocker l'information visuelle du concept cible. (2) Dans la mise à jour des connaissances textuelles, nous mettons à jour la réponse aux requêtes de connaissance vers la représentation d'ancrage, permettant une génération personnalisée haute fidélité. Pour évaluer plus complètement notre méthode MoKus sur cette nouvelle tâche, nous introduisons le premier benchmark pour la personnalisation de concepts sensible à la connaissance : KnowCusBench. Des évaluations approfondies ont démontré que MoKus surpasse les méthodes de l'état de l'art. De plus, le transfert de connaissances intermodales permet à MoKus d'être facilement étendu à d'autres applications sensibles à la connaissance, comme la création de concepts virtuels et l'effacement de concepts. Nous démontrons également la capacité de notre méthode à obtenir des améliorations sur des benchmarks de connaissances générales.

English

Concept customization typically binds rare tokens to a target concept. Unfortunately, these approaches often suffer from unstable performance as the pretraining data seldom contains these rare tokens. Meanwhile, these rare tokens fail to convey the inherent knowledge of the target concept. Consequently, we introduce Knowledge-aware Concept Customization, a novel task aiming at binding diverse textual knowledge to target visual concepts. This task requires the model to identify the knowledge within the text prompt to perform high-fidelity customized generation. Meanwhile, the model should efficiently bind all the textual knowledge to the target concept. Therefore, we propose MoKus, a novel framework for knowledge-aware concept customization. Our framework relies on a key observation: cross-modal knowledge transfer, where modifying knowledge within the text modality naturally transfers to the visual modality during generation. Inspired by this observation, MoKus contains two stages: (1) In visual concept learning, we first learn the anchor representation to store the visual information of the target concept. (2) In textual knowledge updating, we update the answer for the knowledge queries to the anchor representation, enabling high-fidelity customized generation. To further comprehensively evaluate our proposed MoKus on the new task, we introduce the first benchmark for knowledge-aware concept customization: KnowCusBench. Extensive evaluations have demonstrated that MoKus outperforms state-of-the-art methods. Moreover, the cross-model knowledge transfer allows MoKus to be easily extended to other knowledge-aware applications like virtual concept creation and concept erasure. We also demonstrate the capability of our method to achieve improvements on world knowledge benchmarks.

MoKus : Exploiter le transfert de connaissances intermodales pour la personnalisation de concepts conscients du savoir

MoKus: Leveraging Cross-Modal Knowledge Transfer for Knowledge-Aware Concept Customization

Résumé

Support