VisualCloze: Ein universelles Framework zur Bildgenerierung durch visuelles In-Context-Lernen

papers.abstract

Jüngste Fortschritte bei Diffusionsmodellen haben verschiedene Aufgaben der Bildgenerierung erheblich vorangetrieben. Der derzeitige Mainstream-Ansatz konzentriert sich jedoch weiterhin auf die Entwicklung von aufgabenspezifischen Modellen, die bei der Unterstützung einer breiten Palette unterschiedlicher Anforderungen nur begrenzt effizient sind. Während universelle Modelle versuchen, diese Einschränkung zu überwinden, stehen sie vor kritischen Herausforderungen, darunter generalisierbare Aufgabenanweisungen, angemessene Aufgabenverteilungen und einheitliche Architekturdesigns. Um diese Herausforderungen zu bewältigen, schlagen wir VisualCloze vor, ein universelles Framework für die Bildgenerierung, das eine breite Palette von domänenspezifischen Aufgaben, die Generalisierung auf unbekannte Aufgaben, die ungesehene Vereinheitlichung mehrerer Aufgaben und die umgekehrte Generierung unterstützt. Im Gegensatz zu bestehenden Methoden, die auf sprachbasierte Aufgabenanweisungen angewiesen sind und dadurch zu Aufgabenmehrdeutigkeit und schwacher Generalisierung führen, integrieren wir visuelles In-Context-Lernen, das es Modellen ermöglicht, Aufgaben aus visuellen Demonstrationen zu identifizieren. Gleichzeitig behindert die inhärente Sparsity von visuellen Aufgabenverteilungen das Erlernen übertragbaren Wissens über Aufgaben hinweg. Zu diesem Zweck führen wir Graph200K ein, einen graphstrukturierten Datensatz, der verschiedene miteinander verbundene Aufgaben etabliert und dadurch die Aufgabendichte und das übertragbare Wissen verbessert. Darüber hinaus decken wir auf, dass unsere einheitliche Formulierung der Bildgenerierung ein konsistentes Ziel mit der Bildinfüllung teilt, was es uns ermöglicht, die starken generativen Prioritäten vortrainierter Infüllungsmodelle zu nutzen, ohne die Architekturen zu modifizieren.

English

Recent progress in diffusion models significantly advances various image generation tasks. However, the current mainstream approach remains focused on building task-specific models, which have limited efficiency when supporting a wide range of different needs. While universal models attempt to address this limitation, they face critical challenges, including generalizable task instruction, appropriate task distributions, and unified architectural design. To tackle these challenges, we propose VisualCloze, a universal image generation framework, which supports a wide range of in-domain tasks, generalization to unseen ones, unseen unification of multiple tasks, and reverse generation. Unlike existing methods that rely on language-based task instruction, leading to task ambiguity and weak generalization, we integrate visual in-context learning, allowing models to identify tasks from visual demonstrations. Meanwhile, the inherent sparsity of visual task distributions hampers the learning of transferable knowledge across tasks. To this end, we introduce Graph200K, a graph-structured dataset that establishes various interrelated tasks, enhancing task density and transferable knowledge. Furthermore, we uncover that our unified image generation formulation shared a consistent objective with image infilling, enabling us to leverage the strong generative priors of pre-trained infilling models without modifying the architectures.

VisualCloze: Ein universelles Framework zur Bildgenerierung durch visuelles In-Context-Lernen

VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning

papers.abstract

Support