Контекстная диффузия: генерация изображений с учетом контекста
Context Diffusion: In-Context Aware Image Generation
December 6, 2023
Авторы: Ivona Najdenkoska, Animesh Sinha, Abhimanyu Dubey, Dhruv Mahajan, Vignesh Ramanathan, Filip Radenovic
cs.AI
Аннотация
Мы представляем Context Diffusion — основанную на диффузии архитектуру, которая позволяет моделям генерации изображений обучаться на визуальных примерах, представленных в контексте. В последних работах рассматривается подобное обучение в контексте для генерации изображений, где запрашиваемое изображение предоставляется вместе с контекстными примерами и текстовыми подсказками. Однако качество и точность генерируемых изображений ухудшаются, когда подсказка отсутствует, что свидетельствует о неспособности таких моделей действительно обучаться на основе визуального контекста. Чтобы решить эту проблему, мы предлагаем новую архитектуру, которая разделяет кодирование визуального контекста и сохранение структуры запрашиваемых изображений. Это позволяет модели обучаться как на визуальном контексте и текстовых подсказках, так и на каждом из них по отдельности. Кроме того, наша модель способна эффективно работать в условиях ограниченного количества примеров, что позволяет решать разнообразные сценарии обучения в контексте. Наши эксперименты и пользовательское исследование показывают, что Context Diffusion превосходит аналогичные модели как в рамках одной предметной области, так и за её пределами, что приводит к общему улучшению качества и точности генерируемых изображений.
English
We propose Context Diffusion, a diffusion-based framework that enables image
generation models to learn from visual examples presented in context. Recent
work tackles such in-context learning for image generation, where a query image
is provided alongside context examples and text prompts. However, the quality
and fidelity of the generated images deteriorate when the prompt is not
present, demonstrating that these models are unable to truly learn from the
visual context. To address this, we propose a novel framework that separates
the encoding of the visual context and preserving the structure of the query
images. This results in the ability to learn from the visual context and text
prompts, but also from either one of them. Furthermore, we enable our model to
handle few-shot settings, to effectively address diverse in-context learning
scenarios. Our experiments and user study demonstrate that Context Diffusion
excels in both in-domain and out-of-domain tasks, resulting in an overall
enhancement in image quality and fidelity compared to counterpart models.