MoKus: 지식 인식 개념 맞춤화를 위한 교차 모달 지식 전이 활용
MoKus: Leveraging Cross-Modal Knowledge Transfer for Knowledge-Aware Concept Customization
March 13, 2026
저자: Chenyang Zhu, Hongxiang Li, Xiu Li, Long Chen
cs.AI
초록
개념 맞춤화는 일반적으로 희귀 토큰을 대상 개념에 바인딩하는 방식으로 이루어집니다. 그러나 이러한 접근법은 사전 학습 데이터에 이러한 희귀 토큰이 거의 포함되지 않아 성능이 불안정한 경우가 많습니다. 동시에 이러한 희귀 토큰은 대상 개념의 내재적 지식을 전달하지 못합니다. 이에 따라 우리는 다양한 텍스트 지식을 대상 시각 개념에 바인딩하는 것을 목표로 하는 새로운 과제인 지식 인식 개념 맞춤화(Knowledge-aware Concept Customization)를 소개합니다. 이 과제는 모델이 텍스트 프롬프트 내 지식을 식별하여 높은 정확도의 맞춤형 생성을 수행할 것을 요구합니다. 또한 모델은 모든 텍스트 지식을 대상 개념에 효율적으로 바인딩해야 합니다. 따라서 우리는 지식 인식 개념 맞춤화를 위한 새로운 프레임워크인 MoKus를 제안합니다. 우리의 프레임워크는 핵심 관찰인 교차 모달 지식 전이에 기반합니다. 이는 텍스트 모달리티 내 지식을 수정하면 생성 과정에서 자연스럽게 시각 모달리티로 전이된다는 점입니다. 이러한 관찰에서 영감을 받은 MoKus는 두 단계로 구성됩니다: (1) 시각 개념 학습 단계에서는 대상 개념의 시각 정보를 저장하기 위한 앵커 표현을 먼저 학습합니다. (2) 텍스트 지식 업데이트 단계에서는 지식 쿼리에 대한 답변을 앵커 표현으로 업데이트하여 높은 정확도의 맞춤형 생성을 가능하게 합니다. 새로운 과제에 대해 제안된 MoKus를 보다 종합적으로 평가하기 위해 우리는 지식 인식 개념 맞춤화를 위한 첫 번째 벤치마크인 KnowCusBench를 도입했습니다. 광범위한 평가를 통해 MoKus가 최신 방법들을 능가함을 입증했습니다. 더 나아가 교차 모달 지식 전이 덕분에 MoKus는 가상 개념 생성 및 개념 삭제와 같은 다른 지식 인식 응용 프로그램으로 쉽게 확장될 수 있습니다. 우리는 또한 우리 방법이 세계 지식 벤치마크에서 향상을 달성하는 능력을 보여줍니다.
English
Concept customization typically binds rare tokens to a target concept. Unfortunately, these approaches often suffer from unstable performance as the pretraining data seldom contains these rare tokens. Meanwhile, these rare tokens fail to convey the inherent knowledge of the target concept. Consequently, we introduce Knowledge-aware Concept Customization, a novel task aiming at binding diverse textual knowledge to target visual concepts. This task requires the model to identify the knowledge within the text prompt to perform high-fidelity customized generation. Meanwhile, the model should efficiently bind all the textual knowledge to the target concept. Therefore, we propose MoKus, a novel framework for knowledge-aware concept customization. Our framework relies on a key observation: cross-modal knowledge transfer, where modifying knowledge within the text modality naturally transfers to the visual modality during generation. Inspired by this observation, MoKus contains two stages: (1) In visual concept learning, we first learn the anchor representation to store the visual information of the target concept. (2) In textual knowledge updating, we update the answer for the knowledge queries to the anchor representation, enabling high-fidelity customized generation. To further comprehensively evaluate our proposed MoKus on the new task, we introduce the first benchmark for knowledge-aware concept customization: KnowCusBench. Extensive evaluations have demonstrated that MoKus outperforms state-of-the-art methods. Moreover, the cross-model knowledge transfer allows MoKus to be easily extended to other knowledge-aware applications like virtual concept creation and concept erasure. We also demonstrate the capability of our method to achieve improvements on world knowledge benchmarks.