Итеративная оптимизация подсчета объектов для моделей диффузии текста в изображение
Iterative Object Count Optimization for Text-to-image Diffusion Models
August 21, 2024
Авторы: Oz Zafar, Lior Wolf, Idan Schwartz
cs.AI
Аннотация
Мы рассматриваем постоянное препятствие в моделях текст-к-изображению: точная генерация указанного количества объектов. Существующие модели, обученные на парах изображение-текст, имеют проблемы с подсчетом, так как обучающие данные не могут изображать каждое возможное количество объектов для любого данного объекта. Для решения этой проблемы мы предлагаем оптимизировать сгенерированное изображение на основе потерь от подсчета, полученных от модели подсчета, агрегирующей потенциал объекта. Использование готовой модели подсчета вызывает трудности по двум причинам: во-первых, модель требует гиперпараметр масштабирования для агрегации потенциала, изменяющийся в зависимости от точки зрения объектов, и во-вторых, техники направления классификатора требуют модифицированных моделей, работающих на шумных промежуточных этапах диффузии. Для решения этих проблем мы предлагаем итеративный режим онлайн-обучения, который улучшает точность выведенных изображений, изменяя вложение условия текста и динамически настраивая гиперпараметры. Наш метод предлагает три ключевых преимущества: (i) он может рассматривать недифференцируемые техники подсчета на основе моделей обнаружения, (ii) это решение "включи и играй", облегчающее быстрые изменения в техниках подсчета и методах генерации изображений, и (iii) оптимизированный токен подсчета может быть повторно использован для генерации точных изображений без дополнительной оптимизации. Мы оцениваем генерацию различных объектов и показываем значительное улучшение точности. Страница проекта доступна по адресу https://ozzafar.github.io/count_token.
English
We address a persistent challenge in text-to-image models: accurately
generating a specified number of objects. Current models, which learn from
image-text pairs, inherently struggle with counting, as training data cannot
depict every possible number of objects for any given object. To solve this, we
propose optimizing the generated image based on a counting loss derived from a
counting model that aggregates an object\'s potential. Employing an
out-of-the-box counting model is challenging for two reasons: first, the model
requires a scaling hyperparameter for the potential aggregation that varies
depending on the viewpoint of the objects, and second, classifier guidance
techniques require modified models that operate on noisy intermediate diffusion
steps. To address these challenges, we propose an iterated online training mode
that improves the accuracy of inferred images while altering the text
conditioning embedding and dynamically adjusting hyperparameters. Our method
offers three key advantages: (i) it can consider non-derivable counting
techniques based on detection models, (ii) it is a zero-shot plug-and-play
solution facilitating rapid changes to the counting techniques and image
generation methods, and (iii) the optimized counting token can be reused to
generate accurate images without additional optimization. We evaluate the
generation of various objects and show significant improvements in accuracy.
The project page is available at https://ozzafar.github.io/count_token.Summary
AI-Generated Summary