ChatPaper.aiChatPaper

MoKus: Nutzung cross-modalen Wissenstransfers für wissensbasierte Konzeptanpassung

MoKus: Leveraging Cross-Modal Knowledge Transfer for Knowledge-Aware Concept Customization

March 13, 2026
Autoren: Chenyang Zhu, Hongxiang Li, Xiu Li, Long Chen
cs.AI

Zusammenfassung

Die Konzeptanpassung bindet typischerweise seltene Token an ein Zielkonzept. Leider weisen diese Ansätze oft eine instabile Leistung auf, da die Vortrainingsdaten nur selten diese seltenen Token enthalten. Gleichzeitig können diese seltenen Token das inhärente Wissen des Zielkonzepts nicht vermitteln. Daher führen wir Knowledge-aware Concept Customization ein, eine neuartige Aufgabe, die darauf abzielt, diverses textuelles Wissen an visuelle Zielkonzepte zu binden. Diese Aufgabe erfordert, dass das Modell das Wissen innerhalb des Textprompts identifiziert, um eine hochpräzise angepasste Generierung durchzuführen. Gleichzeitig sollte das Modell effizient das gesamte textuelle Wissen an das Zielkonzept binden. Daher schlagen wir MoKus vor, einen neuartigen Rahmen für wissensbasierte Konzeptanpassung. Unser Rahmenkonzept stützt sich auf eine Schlüsselbeobachtung: den cross-modalen Wissenstransfer, bei dem sich die Modifikation von Wissen in der Textmodalität während der Generierung natürlich auf die visuelle Modalität überträgt. Inspiriert durch diese Beobachtung umfasst MoKus zwei Stufen: (1) Im visuellen Konzeptlernen erlernen wir zunächst die Ankerrepräsentation, um die visuellen Informationen des Zielkonzepts zu speichern. (2) In der textuellen Wissensaktualisierung aktualisieren wir die Antwort auf die Wissensabfragen auf die Ankerrepräsentation, was eine hochpräzise angepasste Generierung ermöglicht. Um unsere vorgeschlagene Methode MoKus für diese neue Aufgabe umfassend zu evaluieren, führen wir den ersten Benchmark für wissensbasierte Konzeptanpassung ein: KnowCusBench. Umfangreiche Auswertungen haben gezeigt, dass MoKus state-of-the-art Methoden übertrifft. Darüber hinaus ermöglicht der cross-modale Wissenstransfer eine einfache Erweiterung von MoKus auf andere wissensbasierte Anwendungen wie die Erstellung virtueller Konzepte und Konzeptlöschung. Wir zeigen auch die Fähigkeit unserer Methode, Verbesserungen auf Benchmarks für Weltwissen zu erzielen.
English
Concept customization typically binds rare tokens to a target concept. Unfortunately, these approaches often suffer from unstable performance as the pretraining data seldom contains these rare tokens. Meanwhile, these rare tokens fail to convey the inherent knowledge of the target concept. Consequently, we introduce Knowledge-aware Concept Customization, a novel task aiming at binding diverse textual knowledge to target visual concepts. This task requires the model to identify the knowledge within the text prompt to perform high-fidelity customized generation. Meanwhile, the model should efficiently bind all the textual knowledge to the target concept. Therefore, we propose MoKus, a novel framework for knowledge-aware concept customization. Our framework relies on a key observation: cross-modal knowledge transfer, where modifying knowledge within the text modality naturally transfers to the visual modality during generation. Inspired by this observation, MoKus contains two stages: (1) In visual concept learning, we first learn the anchor representation to store the visual information of the target concept. (2) In textual knowledge updating, we update the answer for the knowledge queries to the anchor representation, enabling high-fidelity customized generation. To further comprehensively evaluate our proposed MoKus on the new task, we introduce the first benchmark for knowledge-aware concept customization: KnowCusBench. Extensive evaluations have demonstrated that MoKus outperforms state-of-the-art methods. Moreover, the cross-model knowledge transfer allows MoKus to be easily extended to other knowledge-aware applications like virtual concept creation and concept erasure. We also demonstrate the capability of our method to achieve improvements on world knowledge benchmarks.
PDF33March 18, 2026