Otimização Iterativa de Contagem de Objetos para Modelos de Difusão de Texto para Imagem
Iterative Object Count Optimization for Text-to-image Diffusion Models
August 21, 2024
Autores: Oz Zafar, Lior Wolf, Idan Schwartz
cs.AI
Resumo
Abordamos um desafio persistente em modelos de texto para imagem: gerar com precisão um número especificado de objetos. Os modelos atuais, que aprendem a partir de pares imagem-texto, têm dificuldade inerente com a contagem, uma vez que os dados de treinamento não podem representar todos os possíveis números de objetos para um determinado objeto. Para resolver isso, propomos otimizar a imagem gerada com base em uma perda de contagem derivada de um modelo de contagem que agrega o potencial de um objeto. Utilizar um modelo de contagem pronto para uso é desafiador por duas razões: primeiro, o modelo requer um hiperparâmetro de escala para a agregação de potencial que varia dependendo do ponto de vista dos objetos, e segundo, técnicas de orientação de classificadores requerem modelos modificados que operam em etapas de difusão intermediárias ruidosas. Para lidar com esses desafios, propomos um modo de treinamento online iterativo que melhora a precisão das imagens inferidas ao alterar a incorporação de condicionamento de texto e ajustar dinamicamente os hiperparâmetros. Nosso método oferece três principais vantagens: (i) pode considerar técnicas de contagem não deriváveis com base em modelos de detecção, (ii) é uma solução plug-and-play de zero-shot que facilita mudanças rápidas nas técnicas de contagem e nos métodos de geração de imagem, e (iii) o token de contagem otimizado pode ser reutilizado para gerar imagens precisas sem otimização adicional. Avaliamos a geração de vários objetos e mostramos melhorias significativas na precisão. A página do projeto está disponível em https://ozzafar.github.io/count_token.
English
We address a persistent challenge in text-to-image models: accurately
generating a specified number of objects. Current models, which learn from
image-text pairs, inherently struggle with counting, as training data cannot
depict every possible number of objects for any given object. To solve this, we
propose optimizing the generated image based on a counting loss derived from a
counting model that aggregates an object\'s potential. Employing an
out-of-the-box counting model is challenging for two reasons: first, the model
requires a scaling hyperparameter for the potential aggregation that varies
depending on the viewpoint of the objects, and second, classifier guidance
techniques require modified models that operate on noisy intermediate diffusion
steps. To address these challenges, we propose an iterated online training mode
that improves the accuracy of inferred images while altering the text
conditioning embedding and dynamically adjusting hyperparameters. Our method
offers three key advantages: (i) it can consider non-derivable counting
techniques based on detection models, (ii) it is a zero-shot plug-and-play
solution facilitating rapid changes to the counting techniques and image
generation methods, and (iii) the optimized counting token can be reused to
generate accurate images without additional optimization. We evaluate the
generation of various objects and show significant improvements in accuracy.
The project page is available at https://ozzafar.github.io/count_token.Summary
AI-Generated Summary