VisualCloze: Un Marco Universal para la Generación de Imágenes mediante Aprendizaje Visual en Contexto
VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning
April 10, 2025
Autores: Zhong-Yu Li, Ruoyi Du, Juncheng Yan, Le Zhuo, Zhen Li, Peng Gao, Zhanyu Ma, Ming-Ming Cheng
cs.AI
Resumen
Los recientes avances en los modelos de difusión han impulsado significativamente diversas tareas de generación de imágenes. Sin embargo, el enfoque principal actual sigue centrado en la construcción de modelos específicos para cada tarea, lo que limita su eficiencia al intentar cubrir una amplia gama de necesidades. Aunque los modelos universales buscan abordar esta limitación, enfrentan desafíos críticos, como la instrucción generalizable de tareas, la distribución adecuada de tareas y el diseño arquitectónico unificado. Para abordar estos desafíos, proponemos VisualCloze, un marco universal de generación de imágenes que admite una amplia gama de tareas dentro del dominio, la generalización a tareas no vistas, la unificación de múltiples tareas y la generación inversa. A diferencia de los métodos existentes que dependen de instrucciones basadas en lenguaje, lo que genera ambigüedad en las tareas y una débil generalización, integramos el aprendizaje visual en contexto, permitiendo que los modelos identifiquen tareas a partir de demostraciones visuales. Mientras tanto, la inherente dispersión de las distribuciones de tareas visuales dificulta el aprendizaje de conocimientos transferibles entre tareas. Para ello, presentamos Graph200K, un conjunto de datos estructurado en grafos que establece diversas tareas interrelacionadas, aumentando la densidad de tareas y el conocimiento transferible. Además, descubrimos que nuestra formulación unificada de generación de imágenes comparte un objetivo consistente con el relleno de imágenes, lo que nos permite aprovechar los fuertes priors generativos de los modelos preentrenados de relleno sin modificar las arquitecturas.
English
Recent progress in diffusion models significantly advances various image
generation tasks. However, the current mainstream approach remains focused on
building task-specific models, which have limited efficiency when supporting a
wide range of different needs. While universal models attempt to address this
limitation, they face critical challenges, including generalizable task
instruction, appropriate task distributions, and unified architectural design.
To tackle these challenges, we propose VisualCloze, a universal image
generation framework, which supports a wide range of in-domain tasks,
generalization to unseen ones, unseen unification of multiple tasks, and
reverse generation. Unlike existing methods that rely on language-based task
instruction, leading to task ambiguity and weak generalization, we integrate
visual in-context learning, allowing models to identify tasks from visual
demonstrations. Meanwhile, the inherent sparsity of visual task distributions
hampers the learning of transferable knowledge across tasks. To this end, we
introduce Graph200K, a graph-structured dataset that establishes various
interrelated tasks, enhancing task density and transferable knowledge.
Furthermore, we uncover that our unified image generation formulation shared a
consistent objective with image infilling, enabling us to leverage the strong
generative priors of pre-trained infilling models without modifying the
architectures.Summary
AI-Generated Summary