Otimização Iterativa de Contagem de Objetos para Modelos de Difusão de Texto para Imagem

Resumo

Abordamos um desafio persistente em modelos de texto para imagem: gerar com precisão um número especificado de objetos. Os modelos atuais, que aprendem a partir de pares imagem-texto, têm dificuldade inerente com a contagem, uma vez que os dados de treinamento não podem representar todos os possíveis números de objetos para um determinado objeto. Para resolver isso, propomos otimizar a imagem gerada com base em uma perda de contagem derivada de um modelo de contagem que agrega o potencial de um objeto. Utilizar um modelo de contagem pronto para uso é desafiador por duas razões: primeiro, o modelo requer um hiperparâmetro de escala para a agregação de potencial que varia dependendo do ponto de vista dos objetos, e segundo, técnicas de orientação de classificadores requerem modelos modificados que operam em etapas de difusão intermediárias ruidosas. Para lidar com esses desafios, propomos um modo de treinamento online iterativo que melhora a precisão das imagens inferidas ao alterar a incorporação de condicionamento de texto e ajustar dinamicamente os hiperparâmetros. Nosso método oferece três principais vantagens: (i) pode considerar técnicas de contagem não deriváveis com base em modelos de detecção, (ii) é uma solução plug-and-play de zero-shot que facilita mudanças rápidas nas técnicas de contagem e nos métodos de geração de imagem, e (iii) o token de contagem otimizado pode ser reutilizado para gerar imagens precisas sem otimização adicional. Avaliamos a geração de vários objetos e mostramos melhorias significativas na precisão. A página do projeto está disponível em https://ozzafar.github.io/count_token.

English

We address a persistent challenge in text-to-image models: accurately generating a specified number of objects. Current models, which learn from image-text pairs, inherently struggle with counting, as training data cannot depict every possible number of objects for any given object. To solve this, we propose optimizing the generated image based on a counting loss derived from a counting model that aggregates an object\'s potential. Employing an out-of-the-box counting model is challenging for two reasons: first, the model requires a scaling hyperparameter for the potential aggregation that varies depending on the viewpoint of the objects, and second, classifier guidance techniques require modified models that operate on noisy intermediate diffusion steps. To address these challenges, we propose an iterated online training mode that improves the accuracy of inferred images while altering the text conditioning embedding and dynamically adjusting hyperparameters. Our method offers three key advantages: (i) it can consider non-derivable counting techniques based on detection models, (ii) it is a zero-shot plug-and-play solution facilitating rapid changes to the counting techniques and image generation methods, and (iii) the optimized counting token can be reused to generate accurate images without additional optimization. We evaluate the generation of various objects and show significant improvements in accuracy. The project page is available at https://ozzafar.github.io/count_token.

Otimização Iterativa de Contagem de Objetos para Modelos de Difusão de Texto para Imagem

Iterative Object Count Optimization for Text-to-image Diffusion Models

Resumo

Summary

Support

Support