GraPE: Фреймворк Generate-Plan-Edit для композиционного синтеза текста в изображения.
GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis
December 8, 2024
Авторы: Ashish Goswami, Satyam Kumar Modi, Santhosh Rishi Deshineni, Harman Singh, Prathosh A. P, Parag Singla
cs.AI
Аннотация
Генерация изображений по тексту (T2I) продемонстрировала значительный прогресс с помощью моделей диффузии, позволяющих создавать фотореалистичные изображения по текстовым подсказкам. Несмотря на этот прогресс, существующие методы по-прежнему сталкиваются с вызовами в следовании сложным текстовым подсказкам, особенно тем, которые требуют композиционного и многоэтапного рассуждения. При таких сложных инструкциях модели SOTA часто допускают ошибки в точном моделировании атрибутов объектов и их взаимосвязей. В данной работе мы представляем альтернативную парадигму для синтеза T2I, разбивая задачу сложной многоэтапной генерации на три шага: (a) Генерация: сначала мы создаем изображение с использованием существующих моделей диффузии; (b) Планирование: мы используем Мульти-Модальные LLMs (MLLMs) для выявления ошибок в созданном изображении, выраженных в терминах отдельных объектов и их свойств, и создаем последовательность корректирующих шагов в виде плана редактирования; (c) Редактирование: мы используем существующие модели редактирования изображений под управлением текста для последовательного выполнения нашего плана редактирования над созданным изображением, чтобы получить желаемое изображение, которое верно передает исходную инструкцию. Наш подход получает свою силу от модульной природы, отсутствия необходимости в обучении и возможности применения к любой комбинации моделей генерации и редактирования изображений. В качестве дополнительного вклада мы также разрабатываем модель, способную к композиционному редактированию, что дополнительно помогает улучшить общую точность нашего предложенного подхода. Наш метод гибко обменивается временем вывода и вычислениями с производительностью на композиционных текстовых подсказках. Мы проводим обширную экспериментальную оценку по 3 бенчмаркам и 10 моделям T2I, включая DALLE-3 и последнюю - SD-3.5-Large. Наш подход не только улучшает производительность моделей SOTA на до 3 пунктов, но также уменьшает разрыв в производительности между слабыми и сильными моделями.
English
Text-to-image (T2I) generation has seen significant progress with diffusion
models, enabling generation of photo-realistic images from text prompts.
Despite this progress, existing methods still face challenges in following
complex text prompts, especially those requiring compositional and multi-step
reasoning. Given such complex instructions, SOTA models often make mistakes in
faithfully modeling object attributes, and relationships among them. In this
work, we present an alternate paradigm for T2I synthesis, decomposing the task
of complex multi-step generation into three steps, (a) Generate: we first
generate an image using existing diffusion models (b) Plan: we make use of
Multi-Modal LLMs (MLLMs) to identify the mistakes in the generated image
expressed in terms of individual objects and their properties, and produce a
sequence of corrective steps required in the form of an edit-plan. (c) Edit: we
make use of an existing text-guided image editing models to sequentially
execute our edit-plan over the generated image to get the desired image which
is faithful to the original instruction. Our approach derives its strength from
the fact that it is modular in nature, is training free, and can be applied
over any combination of image generation and editing models. As an added
contribution, we also develop a model capable of compositional editing, which
further helps improve the overall accuracy of our proposed approach. Our method
flexibly trades inference time compute with performance on compositional text
prompts. We perform extensive experimental evaluation across 3 benchmarks and
10 T2I models including DALLE-3 and the latest -- SD-3.5-Large. Our approach
not only improves the performance of the SOTA models, by upto 3 points, it also
reduces the performance gap between weaker and stronger models.
https://dair-iitd.github.io/GraPE/{https://dair-iitd.github.io/GraPE/}Summary
AI-Generated Summary