ChatPaper.aiChatPaper

Context Diffusion: In-Context Bewuste Beeldgeneratie

Context Diffusion: In-Context Aware Image Generation

December 6, 2023
Auteurs: Ivona Najdenkoska, Animesh Sinha, Abhimanyu Dubey, Dhruv Mahajan, Vignesh Ramanathan, Filip Radenovic
cs.AI

Samenvatting

We stellen Context Diffusion voor, een op diffusie gebaseerd raamwerk dat beeldgeneratiemodellen in staat stelt te leren van visuele voorbeelden die in context worden gepresenteerd. Recent werk richt zich op dergelijk in-context leren voor beeldgeneratie, waarbij een querybeeld wordt aangeboden naast contextvoorbeelden en tekstprompts. Echter, de kwaliteit en nauwkeurigheid van de gegenereerde beelden verslechteren wanneer de prompt niet aanwezig is, wat aantoont dat deze modellen niet echt kunnen leren van de visuele context. Om dit aan te pakken, stellen we een nieuw raamwerk voor dat de codering van de visuele context scheidt en de structuur van de querybeelden behoudt. Dit resulteert in de mogelijkheid om te leren van de visuele context en tekstprompts, maar ook van slechts één van beide. Bovendien stellen we ons model in staat om few-shot instellingen te hanteren, om diverse in-context leer scenario's effectief aan te pakken. Onze experimenten en gebruikersstudie tonen aan dat Context Diffusion uitblinkt in zowel in-domein als out-of-domein taken, wat resulteert in een algehele verbetering van de beeldkwaliteit en nauwkeurigheid in vergelijking met tegenhanger modellen.
English
We propose Context Diffusion, a diffusion-based framework that enables image generation models to learn from visual examples presented in context. Recent work tackles such in-context learning for image generation, where a query image is provided alongside context examples and text prompts. However, the quality and fidelity of the generated images deteriorate when the prompt is not present, demonstrating that these models are unable to truly learn from the visual context. To address this, we propose a novel framework that separates the encoding of the visual context and preserving the structure of the query images. This results in the ability to learn from the visual context and text prompts, but also from either one of them. Furthermore, we enable our model to handle few-shot settings, to effectively address diverse in-context learning scenarios. Our experiments and user study demonstrate that Context Diffusion excels in both in-domain and out-of-domain tasks, resulting in an overall enhancement in image quality and fidelity compared to counterpart models.
PDF160December 15, 2024