GraPE: Um Framework de Geração-Planejamento-Edição para Síntese Composicional de Texto para Imagem (T2I)
GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis
December 8, 2024
Autores: Ashish Goswami, Satyam Kumar Modi, Santhosh Rishi Deshineni, Harman Singh, Prathosh A. P, Parag Singla
cs.AI
Resumo
A geração de texto para imagem (T2I) tem visto um progresso significativo com modelos de difusão, permitindo a geração de imagens fotorrealistas a partir de instruções em texto. Apesar desse progresso, os métodos existentes ainda enfrentam desafios em seguir instruções de texto complexas, especialmente aquelas que exigem raciocínio composicional e em múltiplas etapas. Diante de tais instruções complexas, os modelos de última geração frequentemente cometem erros ao modelar fielmente os atributos dos objetos e os relacionamentos entre eles. Neste trabalho, apresentamos um paradigma alternativo para a síntese T2I, decompondo a tarefa de geração complexa em múltiplas etapas, (a) Gerar: primeiro geramos uma imagem usando modelos de difusão existentes (b) Planejar: fazemos uso de Modelos de Linguagem Multimodais (MLLMs) para identificar os erros na imagem gerada expressos em termos de objetos individuais e suas propriedades, e produzir uma sequência de etapas corretivas necessárias na forma de um plano de edição. (c) Editar: fazemos uso de modelos de edição de imagem guiados por texto existentes para executar sequencialmente nosso plano de edição sobre a imagem gerada para obter a imagem desejada que seja fiel à instrução original. Nossa abordagem deriva sua força do fato de ser modular por natureza, não requer treinamento e pode ser aplicada em qualquer combinação de modelos de geração e edição de imagem. Como contribuição adicional, também desenvolvemos um modelo capaz de edição composicional, o que ajuda a melhorar ainda mais a precisão geral de nossa abordagem proposta. Nosso método troca de forma flexível o tempo de inferência computacional pelo desempenho em instruções de texto composicionais. Realizamos uma extensa avaliação experimental em 3 benchmarks e 10 modelos T2I, incluindo DALLE-3 e o mais recente - SD-3.5-Large. Nossa abordagem não apenas melhora o desempenho dos modelos de última geração, em até 3 pontos, mas também reduz a diferença de desempenho entre modelos mais fracos e mais fortes.
English
Text-to-image (T2I) generation has seen significant progress with diffusion
models, enabling generation of photo-realistic images from text prompts.
Despite this progress, existing methods still face challenges in following
complex text prompts, especially those requiring compositional and multi-step
reasoning. Given such complex instructions, SOTA models often make mistakes in
faithfully modeling object attributes, and relationships among them. In this
work, we present an alternate paradigm for T2I synthesis, decomposing the task
of complex multi-step generation into three steps, (a) Generate: we first
generate an image using existing diffusion models (b) Plan: we make use of
Multi-Modal LLMs (MLLMs) to identify the mistakes in the generated image
expressed in terms of individual objects and their properties, and produce a
sequence of corrective steps required in the form of an edit-plan. (c) Edit: we
make use of an existing text-guided image editing models to sequentially
execute our edit-plan over the generated image to get the desired image which
is faithful to the original instruction. Our approach derives its strength from
the fact that it is modular in nature, is training free, and can be applied
over any combination of image generation and editing models. As an added
contribution, we also develop a model capable of compositional editing, which
further helps improve the overall accuracy of our proposed approach. Our method
flexibly trades inference time compute with performance on compositional text
prompts. We perform extensive experimental evaluation across 3 benchmarks and
10 T2I models including DALLE-3 and the latest -- SD-3.5-Large. Our approach
not only improves the performance of the SOTA models, by upto 3 points, it also
reduces the performance gap between weaker and stronger models.
https://dair-iitd.github.io/GraPE/{https://dair-iitd.github.io/GraPE/}Summary
AI-Generated Summary