Управление текстово-визуальной диффузией с помощью ортогональной тонкой настройки
Controlling Text-to-Image Diffusion by Orthogonal Finetuning
June 12, 2023
Авторы: Zeju Qiu, Weiyang Liu, Haiwen Feng, Yuxuan Xue, Yao Feng, Zhen Liu, Dan Zhang, Adrian Weller, Bernhard Schölkopf
cs.AI
Аннотация
Крупные диффузионные модели для генерации изображений по текстовым запросам демонстрируют впечатляющие способности в создании фотореалистичных изображений. Вопрос о том, как эффективно направлять или контролировать эти мощные модели для выполнения различных задач, становится важной открытой проблемой. Для решения этой задачи мы представляем принципиальный метод тонкой настройки — Ортогональную Тонкую Настройку (Orthogonal Finetuning, OFT), предназначенную для адаптации диффузионных моделей генерации изображений по тексту к конкретным задачам. В отличие от существующих методов, OFT гарантированно сохраняет гиперсферическую энергию, которая характеризует парные отношения нейронов на единичной гиперсфере. Мы обнаружили, что это свойство критически важно для сохранения семантической способности генерации изображений в таких моделях. Для повышения стабильности тонкой настройки мы дополнительно предлагаем Ограниченную Ортогональную Тонкую Настройку (Constrained Orthogonal Finetuning, COFT), которая накладывает дополнительное ограничение на радиус гиперсферы. В частности, мы рассматриваем две важные задачи тонкой настройки для генерации изображений по тексту: генерацию, ориентированную на объект, где цель — создание изображений, специфичных для заданного объекта, на основе нескольких изображений объекта и текстового запроса, и управляемую генерацию, где цель — обеспечить возможность модели принимать дополнительные управляющие сигналы. Эмпирически мы показываем, что наш подход OFT превосходит существующие методы по качеству генерации и скорости сходимости.
English
Large text-to-image diffusion models have impressive capabilities in
generating photorealistic images from text prompts. How to effectively guide or
control these powerful models to perform different downstream tasks becomes an
important open problem. To tackle this challenge, we introduce a principled
finetuning method -- Orthogonal Finetuning (OFT), for adapting text-to-image
diffusion models to downstream tasks. Unlike existing methods, OFT can provably
preserve hyperspherical energy which characterizes the pairwise neuron
relationship on the unit hypersphere. We find that this property is crucial for
preserving the semantic generation ability of text-to-image diffusion models.
To improve finetuning stability, we further propose Constrained Orthogonal
Finetuning (COFT) which imposes an additional radius constraint to the
hypersphere. Specifically, we consider two important finetuning text-to-image
tasks: subject-driven generation where the goal is to generate subject-specific
images given a few images of a subject and a text prompt, and controllable
generation where the goal is to enable the model to take in additional control
signals. We empirically show that our OFT framework outperforms existing
methods in generation quality and convergence speed.