コンテキスト拡散:コンテキストを意識した画像生成
Context Diffusion: In-Context Aware Image Generation
December 6, 2023
著者: Ivona Najdenkoska, Animesh Sinha, Abhimanyu Dubey, Dhruv Mahajan, Vignesh Ramanathan, Filip Radenovic
cs.AI
要旨
本論文では、コンテキストとして提示された視覚的例から学習可能な画像生成モデルのための拡散ベースのフレームワーク「Context Diffusion」を提案する。最近の研究では、クエリ画像とコンテキスト例、テキストプロンプトを併せて提供する画像生成におけるインコンテキスト学習に取り組んでいる。しかし、プロンプトが存在しない場合、生成画像の品質と忠実度が低下することから、これらのモデルが視覚的コンテキストから真に学習できていないことが示されている。この問題を解決するため、視覚的コンテキストのエンコーディングとクエリ画像の構造の保持を分離する新たなフレームワークを提案する。これにより、視覚的コンテキストとテキストプロンプトの両方からだけでなく、いずれか一方からも学習可能となる。さらに、我々のモデルは少数ショット設定に対応し、多様なインコンテキスト学習シナリオに効果的に対処できる。実験とユーザスタディにより、Context Diffusionがドメイン内およびドメイン外のタスクにおいて優れ、比較対象モデルと比べて画像の品質と忠実度が全体的に向上することが実証された。
English
We propose Context Diffusion, a diffusion-based framework that enables image
generation models to learn from visual examples presented in context. Recent
work tackles such in-context learning for image generation, where a query image
is provided alongside context examples and text prompts. However, the quality
and fidelity of the generated images deteriorate when the prompt is not
present, demonstrating that these models are unable to truly learn from the
visual context. To address this, we propose a novel framework that separates
the encoding of the visual context and preserving the structure of the query
images. This results in the ability to learn from the visual context and text
prompts, but also from either one of them. Furthermore, we enable our model to
handle few-shot settings, to effectively address diverse in-context learning
scenarios. Our experiments and user study demonstrate that Context Diffusion
excels in both in-domain and out-of-domain tasks, resulting in an overall
enhancement in image quality and fidelity compared to counterpart models.