ChatPaper.aiChatPaper

Context Diffusion: Kontextbewusste Bildgenerierung in situ

Context Diffusion: In-Context Aware Image Generation

December 6, 2023
Autoren: Ivona Najdenkoska, Animesh Sinha, Abhimanyu Dubey, Dhruv Mahajan, Vignesh Ramanathan, Filip Radenovic
cs.AI

Zusammenfassung

Wir schlagen Context Diffusion vor, ein diffusionsbasiertes Framework, das Bildgenerierungsmodelle in die Lage versetzt, aus visuellen Beispielen zu lernen, die im Kontext präsentiert werden. Aktuelle Arbeiten befassen sich mit solchem In-Context-Lernen für die Bildgenerierung, bei dem ein Abfragebild zusammen mit Kontextbeispielen und Textprompts bereitgestellt wird. Die Qualität und Detailtreue der generierten Bilder verschlechtert sich jedoch, wenn der Prompt nicht vorhanden ist, was zeigt, dass diese Modelle nicht wirklich aus dem visuellen Kontext lernen können. Um dies zu beheben, schlagen wir ein neuartiges Framework vor, das die Kodierung des visuellen Kontexts von der Bewahrung der Struktur der Abfragebilder trennt. Dies führt zu der Fähigkeit, sowohl aus dem visuellen Kontext und Textprompts als auch aus einem von beiden zu lernen. Darüber hinaus ermöglichen wir unserem Modell, Few-Shot-Szenarien zu bewältigen, um verschiedene In-Context-Lernszenarien effektiv zu adressieren. Unsere Experimente und Benutzerstudien zeigen, dass Context Diffusion sowohl in In-Domain- als auch in Out-of-Domain-Aufgaben hervorragende Leistungen erbringt und im Vergleich zu Gegenstückmodellen eine insgesamt verbesserte Bildqualität und Detailtreue erzielt.
English
We propose Context Diffusion, a diffusion-based framework that enables image generation models to learn from visual examples presented in context. Recent work tackles such in-context learning for image generation, where a query image is provided alongside context examples and text prompts. However, the quality and fidelity of the generated images deteriorate when the prompt is not present, demonstrating that these models are unable to truly learn from the visual context. To address this, we propose a novel framework that separates the encoding of the visual context and preserving the structure of the query images. This results in the ability to learn from the visual context and text prompts, but also from either one of them. Furthermore, we enable our model to handle few-shot settings, to effectively address diverse in-context learning scenarios. Our experiments and user study demonstrate that Context Diffusion excels in both in-domain and out-of-domain tasks, resulting in an overall enhancement in image quality and fidelity compared to counterpart models.
PDF160December 15, 2024