ChatPaper.aiChatPaper

GraPE : Un cadre de génération-planification-édition pour la synthèse compositionnelle T2I

GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis

December 8, 2024
Auteurs: Ashish Goswami, Satyam Kumar Modi, Santhosh Rishi Deshineni, Harman Singh, Prathosh A. P, Parag Singla
cs.AI

Résumé

La génération texte-image (T2I) a connu des progrès significatifs avec les modèles de diffusion, permettant la génération d'images photoréalistes à partir de descriptions textuelles. Malgré ces avancées, les méthodes existantes rencontrent encore des défis pour suivre des instructions textuelles complexes, notamment celles nécessitant un raisonnement compositionnel et multi-étapes. Face à de telles instructions complexes, les modèles de pointe (SOTA) commettent souvent des erreurs dans la modélisation fidèle des attributs des objets et des relations entre eux. Dans ce travail, nous présentons un paradigme alternatif pour la synthèse T2I, décomposant la tâche de génération multi-étapes complexe en trois étapes : (a) Générer : nous générons d'abord une image en utilisant des modèles de diffusion existants, (b) Planifier : nous utilisons des Modèles de Langage Multi-Modaux (MLLMs) pour identifier les erreurs dans l'image générée exprimées en termes d'objets individuels et de leurs propriétés, et produire une séquence d'étapes correctives nécessaires sous forme d'un plan de modification, (c) Modifier : nous utilisons des modèles d'édition d'images guidés par texte existants pour exécuter séquentiellement notre plan de modification sur l'image générée afin d'obtenir l'image souhaitée qui est fidèle à l'instruction initiale. Notre approche tire sa force du fait qu'elle est modulaire par nature, ne nécessite pas d'entraînement, et peut être appliquée à toute combinaison de modèles de génération et d'édition d'images. En outre, nous développons un modèle capable d'édition compositionnelle, ce qui contribue à améliorer la précision globale de notre approche proposée. Notre méthode échange de manière flexible le temps d'inférence avec les performances sur des instructions textuelles compositionnelles. Nous réalisons une évaluation expérimentale approfondie sur 3 bancs d'essai et 10 modèles T2I, y compris DALLE-3 et le dernier - SD-3.5-Large. Notre approche améliore non seulement les performances des modèles SOTA, jusqu'à 3 points, mais réduit également l'écart de performance entre les modèles plus faibles et plus forts.
English
Text-to-image (T2I) generation has seen significant progress with diffusion models, enabling generation of photo-realistic images from text prompts. Despite this progress, existing methods still face challenges in following complex text prompts, especially those requiring compositional and multi-step reasoning. Given such complex instructions, SOTA models often make mistakes in faithfully modeling object attributes, and relationships among them. In this work, we present an alternate paradigm for T2I synthesis, decomposing the task of complex multi-step generation into three steps, (a) Generate: we first generate an image using existing diffusion models (b) Plan: we make use of Multi-Modal LLMs (MLLMs) to identify the mistakes in the generated image expressed in terms of individual objects and their properties, and produce a sequence of corrective steps required in the form of an edit-plan. (c) Edit: we make use of an existing text-guided image editing models to sequentially execute our edit-plan over the generated image to get the desired image which is faithful to the original instruction. Our approach derives its strength from the fact that it is modular in nature, is training free, and can be applied over any combination of image generation and editing models. As an added contribution, we also develop a model capable of compositional editing, which further helps improve the overall accuracy of our proposed approach. Our method flexibly trades inference time compute with performance on compositional text prompts. We perform extensive experimental evaluation across 3 benchmarks and 10 T2I models including DALLE-3 and the latest -- SD-3.5-Large. Our approach not only improves the performance of the SOTA models, by upto 3 points, it also reduces the performance gap between weaker and stronger models. https://dair-iitd.github.io/GraPE/{https://dair-iitd.github.io/GraPE/}

Summary

AI-Generated Summary

PDF42December 11, 2024