DoraCycle: Adaptación Orientada al Dominio de un Modelo Generativo Unificado en Ciclos Multimodales
DoraCycle: Domain-Oriented Adaptation of Unified Generative Model in Multimodal Cycles
March 5, 2025
Autores: Rui Zhao, Weijia Mao, Mike Zheng Shou
cs.AI
Resumen
La adaptación de modelos generativos a dominios específicos presenta una solución efectiva para satisfacer requisitos especializados. Sin embargo, adaptarse a algunos dominios complejos sigue siendo un desafío, especialmente cuando estos dominios requieren una cantidad sustancial de datos emparejados para capturar las distribuciones objetivo. Dado que los datos no emparejados de una sola modalidad, como la visión o el lenguaje, están más fácilmente disponibles, utilizamos las correspondencias bidireccionales entre visión y lenguaje aprendidas por el modelo generativo unificado para permitir el entrenamiento con datos no emparejados para la adaptación de dominio. Específicamente, proponemos DoraCycle, que integra dos ciclos multimodales: texto-a-imagen-a-texto e imagen-a-texto-a-imagen. El modelo se optimiza mediante la pérdida de entropía cruzada calculada en los extremos del ciclo, donde ambos extremos comparten la misma modalidad. Esto facilita la auto-evolución del modelo sin depender de pares de texto-imagen anotados. Los resultados experimentales demuestran que, para tareas independientes del conocimiento emparejado, como la estilización, DoraCycle puede adaptar efectivamente el modelo unificado utilizando solo datos no emparejados. Para tareas que involucran nuevo conocimiento emparejado, como identidades específicas, una combinación de un pequeño conjunto de ejemplos de pares imagen-texto y datos no emparejados a mayor escala es suficiente para una adaptación orientada al dominio efectiva. El código se publicará en https://github.com/showlab/DoraCycle.
English
Adapting generative models to specific domains presents an effective solution
for satisfying specialized requirements. However, adapting to some complex
domains remains challenging, especially when these domains require substantial
paired data to capture the targeted distributions. Since unpaired data from a
single modality, such as vision or language, is more readily available, we
utilize the bidirectional mappings between vision and language learned by the
unified generative model to enable training on unpaired data for domain
adaptation. Specifically, we propose DoraCycle, which integrates two multimodal
cycles: text-to-image-to-text and image-to-text-to-image. The model is
optimized through cross-entropy loss computed at the cycle endpoints, where
both endpoints share the same modality. This facilitates self-evolution of the
model without reliance on annotated text-image pairs. Experimental results
demonstrate that for tasks independent of paired knowledge, such as
stylization, DoraCycle can effectively adapt the unified model using only
unpaired data. For tasks involving new paired knowledge, such as specific
identities, a combination of a small set of paired image-text examples and
larger-scale unpaired data is sufficient for effective domain-oriented
adaptation. The code will be released at https://github.com/showlab/DoraCycle.Summary
AI-Generated Summary