MoKus: 知識を考慮した概念カスタマイズのためのクロスモーダル知識転移の活用
MoKus: Leveraging Cross-Modal Knowledge Transfer for Knowledge-Aware Concept Customization
March 13, 2026
著者: Chenyang Zhu, Hongxiang Li, Xiu Li, Long Chen
cs.AI
要旨
概念カスタマイズでは、通常、稀なトークンを対象概念に紐付ける手法が取られる。しかし、これらのアプローチは、事前学習データにこれらの稀なトークンがほとんど含まれていないため、不安定な性能に悩まされることが多い。同時に、これらの稀なトークンは対象概念の内在的な知識を伝達することができない。そこで我々は、多様なテキスト知識を対象の視覚概念に紐付けることを目的とした新たなタスク、知識認識型概念カスタマイズを提案する。このタスクでは、高忠実度なカスタマイズ生成を実行するために、モデルがテキストプロンプト内の知識を識別することが要求される。同時に、モデルは全てのテキスト知識を対象概念に効率的に紐付けるべきである。
したがって、我々は知識認識型概念カスタマイズのための新しいフレームワークであるMoKusを提案する。我々のフレームワークは、ある重要な観察に依拠している:クロスモーダル知識転送、すなわち、テキストモダリティ内の知識を変更することが、生成過程中に自然に視覚モダリティへ転送されるという観察である。この観察に着想を得て、MoKusは2つの段階を包含する:(1) 視覚概念学習では、まず対象概念の視覚情報を格納するアンカー表現を学習する。(2) テキスト知識更新では、知識クエリに対する回答をアンカー表現へと更新し、高忠実度なカスタマイズ生成を可能にする。
さらに、この新タスクにおいて提案手法MoKusを包括的に評価するため、知識認識型概念カスタマイズにおける最初のベンチマークKnowCusBenchを導入する。大規模な評価により、MoKusが最先端の手法を凌駕することが実証されている。さらに、クロスモーダル知識転送により、MoKusは仮想概念創造や概念抹消のような他の知識認識型アプリケーションへ容易に拡張可能である。我々はまた、世界知識ベンチマークにおいて改善を達成する当手法の能力も実証する。
English
Concept customization typically binds rare tokens to a target concept. Unfortunately, these approaches often suffer from unstable performance as the pretraining data seldom contains these rare tokens. Meanwhile, these rare tokens fail to convey the inherent knowledge of the target concept. Consequently, we introduce Knowledge-aware Concept Customization, a novel task aiming at binding diverse textual knowledge to target visual concepts. This task requires the model to identify the knowledge within the text prompt to perform high-fidelity customized generation. Meanwhile, the model should efficiently bind all the textual knowledge to the target concept. Therefore, we propose MoKus, a novel framework for knowledge-aware concept customization. Our framework relies on a key observation: cross-modal knowledge transfer, where modifying knowledge within the text modality naturally transfers to the visual modality during generation. Inspired by this observation, MoKus contains two stages: (1) In visual concept learning, we first learn the anchor representation to store the visual information of the target concept. (2) In textual knowledge updating, we update the answer for the knowledge queries to the anchor representation, enabling high-fidelity customized generation. To further comprehensively evaluate our proposed MoKus on the new task, we introduce the first benchmark for knowledge-aware concept customization: KnowCusBench. Extensive evaluations have demonstrated that MoKus outperforms state-of-the-art methods. Moreover, the cross-model knowledge transfer allows MoKus to be easily extended to other knowledge-aware applications like virtual concept creation and concept erasure. We also demonstrate the capability of our method to achieve improvements on world knowledge benchmarks.