VisualCloze: Ein universelles Framework zur Bildgenerierung durch visuelles In-Context-Lernen
VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning
April 10, 2025
Autoren: Zhong-Yu Li, Ruoyi Du, Juncheng Yan, Le Zhuo, Zhen Li, Peng Gao, Zhanyu Ma, Ming-Ming Cheng
cs.AI
Zusammenfassung
Jüngste Fortschritte bei Diffusionsmodellen haben verschiedene Aufgaben der Bildgenerierung erheblich vorangetrieben. Der derzeitige Mainstream-Ansatz konzentriert sich jedoch weiterhin auf die Entwicklung von aufgabenspezifischen Modellen, die bei der Unterstützung einer breiten Palette unterschiedlicher Anforderungen nur begrenzt effizient sind. Während universelle Modelle versuchen, diese Einschränkung zu überwinden, stehen sie vor kritischen Herausforderungen, darunter generalisierbare Aufgabenanweisungen, angemessene Aufgabenverteilungen und einheitliche Architekturdesigns. Um diese Herausforderungen zu bewältigen, schlagen wir VisualCloze vor, ein universelles Framework für die Bildgenerierung, das eine breite Palette von domänenspezifischen Aufgaben, die Generalisierung auf unbekannte Aufgaben, die ungesehene Vereinheitlichung mehrerer Aufgaben und die umgekehrte Generierung unterstützt. Im Gegensatz zu bestehenden Methoden, die auf sprachbasierte Aufgabenanweisungen angewiesen sind und dadurch zu Aufgabenmehrdeutigkeit und schwacher Generalisierung führen, integrieren wir visuelles In-Context-Lernen, das es Modellen ermöglicht, Aufgaben aus visuellen Demonstrationen zu identifizieren. Gleichzeitig behindert die inhärente Sparsity von visuellen Aufgabenverteilungen das Erlernen übertragbaren Wissens über Aufgaben hinweg. Zu diesem Zweck führen wir Graph200K ein, einen graphstrukturierten Datensatz, der verschiedene miteinander verbundene Aufgaben etabliert und dadurch die Aufgabendichte und das übertragbare Wissen verbessert. Darüber hinaus decken wir auf, dass unsere einheitliche Formulierung der Bildgenerierung ein konsistentes Ziel mit der Bildinfüllung teilt, was es uns ermöglicht, die starken generativen Prioritäten vortrainierter Infüllungsmodelle zu nutzen, ohne die Architekturen zu modifizieren.
English
Recent progress in diffusion models significantly advances various image
generation tasks. However, the current mainstream approach remains focused on
building task-specific models, which have limited efficiency when supporting a
wide range of different needs. While universal models attempt to address this
limitation, they face critical challenges, including generalizable task
instruction, appropriate task distributions, and unified architectural design.
To tackle these challenges, we propose VisualCloze, a universal image
generation framework, which supports a wide range of in-domain tasks,
generalization to unseen ones, unseen unification of multiple tasks, and
reverse generation. Unlike existing methods that rely on language-based task
instruction, leading to task ambiguity and weak generalization, we integrate
visual in-context learning, allowing models to identify tasks from visual
demonstrations. Meanwhile, the inherent sparsity of visual task distributions
hampers the learning of transferable knowledge across tasks. To this end, we
introduce Graph200K, a graph-structured dataset that establishes various
interrelated tasks, enhancing task density and transferable knowledge.
Furthermore, we uncover that our unified image generation formulation shared a
consistent objective with image infilling, enabling us to leverage the strong
generative priors of pre-trained infilling models without modifying the
architectures.Summary
AI-Generated Summary