ChatPaper.aiChatPaper

VisualCloze: ビジュアルインコンテキスト学習による汎用画像生成フレームワーク

VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning

April 10, 2025
著者: Zhong-Yu Li, Ruoyi Du, Juncheng Yan, Le Zhuo, Zhen Li, Peng Gao, Zhanyu Ma, Ming-Ming Cheng
cs.AI

要旨

最近の拡散モデルの進展は、様々な画像生成タスクを大きく前進させています。しかし、現在の主流のアプローチは、特定のタスクに特化したモデルの構築に焦点を当てており、多様なニーズをサポートする際の効率性が限られています。ユニバーサルモデルはこの制限に対処しようとしていますが、汎用的なタスク指示、適切なタスク分布、統一されたアーキテクチャ設計といった重要な課題に直面しています。これらの課題に取り組むため、我々はVisualClozeを提案します。これは、幅広いドメイン内タスクのサポート、未見タスクへの一般化、複数タスクの未見の統一、および逆生成を可能にするユニバーサル画像生成フレームワークです。言語ベースのタスク指示に依存し、タスクの曖昧さや弱い一般化を引き起こす既存の手法とは異なり、我々は視覚的な文脈内学習を統合し、モデルが視覚的デモンストレーションからタスクを識別できるようにします。一方で、視覚的タスク分布の内在的なスパース性は、タスク間での転移可能な知識の学習を妨げます。このため、我々はGraph200Kを導入します。これは、様々な相互関連タスクを確立し、タスク密度と転移可能な知識を強化するグラフ構造化データセットです。さらに、我々の統一画像生成定式化が、画像インフィリングと一貫した目的を共有していることを明らかにし、アーキテクチャを変更することなく、事前訓練されたインフィリングモデルの強力な生成事前分布を活用できることを示します。
English
Recent progress in diffusion models significantly advances various image generation tasks. However, the current mainstream approach remains focused on building task-specific models, which have limited efficiency when supporting a wide range of different needs. While universal models attempt to address this limitation, they face critical challenges, including generalizable task instruction, appropriate task distributions, and unified architectural design. To tackle these challenges, we propose VisualCloze, a universal image generation framework, which supports a wide range of in-domain tasks, generalization to unseen ones, unseen unification of multiple tasks, and reverse generation. Unlike existing methods that rely on language-based task instruction, leading to task ambiguity and weak generalization, we integrate visual in-context learning, allowing models to identify tasks from visual demonstrations. Meanwhile, the inherent sparsity of visual task distributions hampers the learning of transferable knowledge across tasks. To this end, we introduce Graph200K, a graph-structured dataset that establishes various interrelated tasks, enhancing task density and transferable knowledge. Furthermore, we uncover that our unified image generation formulation shared a consistent objective with image infilling, enabling us to leverage the strong generative priors of pre-trained infilling models without modifying the architectures.

Summary

AI-Generated Summary

PDF463April 11, 2025