MoKus: Aprovechamiento de la Transferencia de Conocimiento Intermodal para la Personalización de Conceptos con Conocimiento
MoKus: Leveraging Cross-Modal Knowledge Transfer for Knowledge-Aware Concept Customization
March 13, 2026
Autores: Chenyang Zhu, Hongxiang Li, Xiu Li, Long Chen
cs.AI
Resumen
La personalización de conceptos normalmente vincula tokens raros a un concepto objetivo. Desafortunadamente, estos enfoques suelen sufrir de un rendimiento inestable, ya que los datos de preentrenamiento rara vez contienen estos tokens raros. Además, estos tokens no logran transmitir el conocimiento inherente del concepto objetivo. En consecuencia, presentamos la Personalización de Conceptos con Conocimiento, una nueva tarea que pretende vincular diversos conocimientos textuales a conceptos visuales objetivo. Esta tarea requiere que el modelo identifique el conocimiento dentro del prompt de texto para realizar una generación personalizada de alta fidelidad. Al mismo tiempo, el modelo debe vincular eficientemente todo el conocimiento textual al concepto objetivo. Por lo tanto, proponemos MoKus, un nuevo marco para la personalización de conceptos con conocimiento. Nuestro marco se basa en una observación clave: la transferencia de conocimiento multimodal, donde modificar el conocimiento dentro de la modalidad textual se transfiere naturalmente a la modalidad visual durante la generación. Inspirados por esta observación, MoKus consta de dos etapas: (1) En el aprendizaje del concepto visual, primero aprendemos la representación ancla para almacenar la información visual del concepto objetivo. (2) En la actualización del conocimiento textual, actualizamos la respuesta a las consultas de conocimiento hacia la representación ancla, permitiendo una generación personalizada de alta fidelidad. Para evaluar más exhaustivamente nuestro MoKus propuesto en esta nueva tarea, presentamos el primer benchmark para personalización de conceptos con conocimiento: KnowCusBench. Evaluaciones exhaustivas han demostrado que MoKus supera a los métodos state-of-the-art. Además, la transferencia de conocimiento multimodal permite que MoKus se extienda fácilmente a otras aplicaciones basadas en conocimiento, como la creación de conceptos virtuales y la eliminación de conceptos. También demostramos la capacidad de nuestro método para lograr mejoras en benchmarks de conocimiento del mundo.
English
Concept customization typically binds rare tokens to a target concept. Unfortunately, these approaches often suffer from unstable performance as the pretraining data seldom contains these rare tokens. Meanwhile, these rare tokens fail to convey the inherent knowledge of the target concept. Consequently, we introduce Knowledge-aware Concept Customization, a novel task aiming at binding diverse textual knowledge to target visual concepts. This task requires the model to identify the knowledge within the text prompt to perform high-fidelity customized generation. Meanwhile, the model should efficiently bind all the textual knowledge to the target concept. Therefore, we propose MoKus, a novel framework for knowledge-aware concept customization. Our framework relies on a key observation: cross-modal knowledge transfer, where modifying knowledge within the text modality naturally transfers to the visual modality during generation. Inspired by this observation, MoKus contains two stages: (1) In visual concept learning, we first learn the anchor representation to store the visual information of the target concept. (2) In textual knowledge updating, we update the answer for the knowledge queries to the anchor representation, enabling high-fidelity customized generation. To further comprehensively evaluate our proposed MoKus on the new task, we introduce the first benchmark for knowledge-aware concept customization: KnowCusBench. Extensive evaluations have demonstrated that MoKus outperforms state-of-the-art methods. Moreover, the cross-model knowledge transfer allows MoKus to be easily extended to other knowledge-aware applications like virtual concept creation and concept erasure. We also demonstrate the capability of our method to achieve improvements on world knowledge benchmarks.