MoKus: Использование кросс-модального переноса знаний для создания кастомизируемых концепций с учетом знаний

Аннотация

Типичная настройка концепции обычно связывает редкие токены с целевой концепцией. К сожалению, такие подходы часто страдают от нестабильной работы, поскольку предварительно обученные данные редко содержат эти редкие токены. Кроме того, эти редкие токены не способны передать внутренние знания о целевой концепции. В связи с этим мы представляем задачу осознанной настройки концепции, новую задачу, направленную на привязку разнообразных текстовых знаний к целевым визуальным концепциям. Эта задача требует от модели идентификации знаний в текстовом промпте для выполнения высококачественной кастомизированной генерации. Одновременно модель должна эффективно связывать все текстовые знания с целевой концепцией. Поэтому мы предлагаем MoKus — новую архитектуру для осознанной настройки концепции. Наша архитектура основывается на ключевом наблюдении: кросс-модальный перенос знаний, при котором модификация знаний в текстовой модальности естественным образом переносится в визуальную модальность в процессе генерации. Вдохновленные этим наблюдением, мы разработали MoKus, состоящий из двух этапов: (1) На этапе обучения визуальной концепции мы сначала изучаем якорное представление для хранения визуальной информации о целевой концепции. (2) На этапе обновления текстовых знаний мы обновляем ответ на запросы знаний, привязывая их к якорному представлению, что позволяет осуществлять высококачественную кастомизированную генерацию. Для дальнейшей комплексной оценки нашего предложенного MoKus в рамках новой задачи мы представляем первый бенчмарк для осознанной настройки концепции: KnowCusBench. Многочисленные оценки показали, что MoKus превосходит современные методы. Более того, кросс-модальный перенос знаний позволяет легко расширить MoKus на другие приложения, связанные с осознанием знаний, такие как создание виртуальных концепций и удаление концепций. Мы также демонстрируем способность нашего метода достигать улучшений на бенчмарках мировых знаний.

English

Concept customization typically binds rare tokens to a target concept. Unfortunately, these approaches often suffer from unstable performance as the pretraining data seldom contains these rare tokens. Meanwhile, these rare tokens fail to convey the inherent knowledge of the target concept. Consequently, we introduce Knowledge-aware Concept Customization, a novel task aiming at binding diverse textual knowledge to target visual concepts. This task requires the model to identify the knowledge within the text prompt to perform high-fidelity customized generation. Meanwhile, the model should efficiently bind all the textual knowledge to the target concept. Therefore, we propose MoKus, a novel framework for knowledge-aware concept customization. Our framework relies on a key observation: cross-modal knowledge transfer, where modifying knowledge within the text modality naturally transfers to the visual modality during generation. Inspired by this observation, MoKus contains two stages: (1) In visual concept learning, we first learn the anchor representation to store the visual information of the target concept. (2) In textual knowledge updating, we update the answer for the knowledge queries to the anchor representation, enabling high-fidelity customized generation. To further comprehensively evaluate our proposed MoKus on the new task, we introduce the first benchmark for knowledge-aware concept customization: KnowCusBench. Extensive evaluations have demonstrated that MoKus outperforms state-of-the-art methods. Moreover, the cross-model knowledge transfer allows MoKus to be easily extended to other knowledge-aware applications like virtual concept creation and concept erasure. We also demonstrate the capability of our method to achieve improvements on world knowledge benchmarks.

MoKus: Использование кросс-модального переноса знаний для создания кастомизируемых концепций с учетом знаний

MoKus: Leveraging Cross-Modal Knowledge Transfer for Knowledge-Aware Concept Customization

Аннотация

Support