MoKus: Sfruttare il Trasferimento di Conoscenze Cross-Modale per la Personalizzazione di Concetti Consapevole della Conoscenza
MoKus: Leveraging Cross-Modal Knowledge Transfer for Knowledge-Aware Concept Customization
March 13, 2026
Autori: Chenyang Zhu, Hongxiang Li, Xiu Li, Long Chen
cs.AI
Abstract
La personalizzazione di concetti tipicamente associa token rari a un concetto target. Sfortunatamente, questi approcci spesso soffrono di prestazioni instabili poiché i dati di pre-addestramento raramente contengono questi token rari. Nel contempo, questi token rari non riescono a trasmettere la conoscenza intrinseca del concetto target. Di conseguenza, introduciamo la Personalizzazione di Concetti Consapevole della Conoscenza (Knowledge-aware Concept Customization), un nuovo compito che mira ad associare conoscenze testuali diversificate a concetti visivi target. Questo compito richiede al modello di identificare la conoscenza all'interno del prompt testuale per eseguire una generazione personalizzata ad alta fedeltà. Contemporaneamente, il modello dovrebbe associare efficientemente tutta la conoscenza testuale al concetto target. Pertanto, proponiamo MoKus, una nuova architettura per la personalizzazione di concetti consapevole della conoscenza. La nostra architettura si basa su un'osservazione chiave: il trasferimento di conoscenza cross-modale, dove la modifica della conoscenza all'interno della modalità testuale si trasferisce naturalmente alla modalità visiva durante la generazione. Ispirati da questa osservazione, MoKus contiene due fasi: (1) Nell'apprendimento del concetto visivo, apprendiamo prima la rappresentazione di ancoraggio (anchor) per memorizzare le informazioni visive del concetto target. (2) Nell'aggiornamento della conoscenza testuale, aggiorniamo la risposta alle query di conoscenza con la rappresentazione di ancoraggio, abilitando una generazione personalizzata ad alta fedeltà. Per valutare ulteriormente in modo completo il nostro MoKus sul nuovo compito, introduciamo il primo benchmark per la personalizzazione di concetti consapevole della conoscenza: KnowCusBench. Valutazioni estensive hanno dimostrato che MoKus supera i metodi allo stato dell'arte. Inoltre, il trasferimento di conoscenza cross-modale consente a MoKus di essere facilmente esteso ad altre applicazioni consapevoli della conoscenza, come la creazione di concetti virtuali e la cancellazione di concetti. Dimostriamo anche la capacità del nostro metodo di ottenere miglioramenti su benchmark di conoscenza mondiale.
English
Concept customization typically binds rare tokens to a target concept. Unfortunately, these approaches often suffer from unstable performance as the pretraining data seldom contains these rare tokens. Meanwhile, these rare tokens fail to convey the inherent knowledge of the target concept. Consequently, we introduce Knowledge-aware Concept Customization, a novel task aiming at binding diverse textual knowledge to target visual concepts. This task requires the model to identify the knowledge within the text prompt to perform high-fidelity customized generation. Meanwhile, the model should efficiently bind all the textual knowledge to the target concept. Therefore, we propose MoKus, a novel framework for knowledge-aware concept customization. Our framework relies on a key observation: cross-modal knowledge transfer, where modifying knowledge within the text modality naturally transfers to the visual modality during generation. Inspired by this observation, MoKus contains two stages: (1) In visual concept learning, we first learn the anchor representation to store the visual information of the target concept. (2) In textual knowledge updating, we update the answer for the knowledge queries to the anchor representation, enabling high-fidelity customized generation. To further comprehensively evaluate our proposed MoKus on the new task, we introduce the first benchmark for knowledge-aware concept customization: KnowCusBench. Extensive evaluations have demonstrated that MoKus outperforms state-of-the-art methods. Moreover, the cross-model knowledge transfer allows MoKus to be easily extended to other knowledge-aware applications like virtual concept creation and concept erasure. We also demonstrate the capability of our method to achieve improvements on world knowledge benchmarks.