DoraCycle: 다중모달 사이클에서 통합 생성 모델의 도메인 지향적 적응
DoraCycle: Domain-Oriented Adaptation of Unified Generative Model in Multimodal Cycles
March 5, 2025
저자: Rui Zhao, Weijia Mao, Mike Zheng Shou
cs.AI
초록
특정 도메인에 생성 모델을 적용하는 것은 전문화된 요구사항을 충족하기 위한 효과적인 해결책을 제시합니다. 그러나 일부 복잡한 도메인에 적응하는 것은 여전히 어려운 과제로 남아 있으며, 특히 이러한 도메인이 목표 분포를 포착하기 위해 상당한 양의 짝지어진 데이터를 요구할 때 더욱 그러합니다. 비전이나 언어와 같은 단일 모달리티에서의 짝지어지지 않은 데이터는 더 쉽게 구할 수 있기 때문에, 우리는 통합 생성 모델이 학습한 비전과 언어 간의 양방향 매핑을 활용하여 짝지어지지 않은 데이터를 사용한 도메인 적응 학습을 가능하게 합니다. 구체적으로, 우리는 텍스트-이미지-텍스트와 이미지-텍스트-이미지라는 두 가지 다중 모달리티 사이클을 통합한 DoraCycle을 제안합니다. 이 모델은 사이클의 끝점에서 계산된 교차 엔트로피 손실을 통해 최적화되며, 두 끝점은 동일한 모달리티를 공유합니다. 이를 통해 주석이 달린 텍스트-이미지 쌍에 의존하지 않고도 모델의 자기 진화가 가능해집니다. 실험 결과는 스타일화와 같이 짝지어진 지식에 의존하지 않는 작업에서 DoraCycle이 짝지어지지 않은 데이터만을 사용하여 통합 모델을 효과적으로 적응시킬 수 있음을 보여줍니다. 특정 정체성과 같이 새로운 짝지어진 지식을 포함하는 작업의 경우, 소규모의 짝지어진 이미지-텍스트 예제와 대규모의 짝지어지지 않은 데이터를 결합하는 것이 효과적인 도메인 지향 적응을 위해 충분합니다. 코드는 https://github.com/showlab/DoraCycle에서 공개될 예정입니다.
English
Adapting generative models to specific domains presents an effective solution
for satisfying specialized requirements. However, adapting to some complex
domains remains challenging, especially when these domains require substantial
paired data to capture the targeted distributions. Since unpaired data from a
single modality, such as vision or language, is more readily available, we
utilize the bidirectional mappings between vision and language learned by the
unified generative model to enable training on unpaired data for domain
adaptation. Specifically, we propose DoraCycle, which integrates two multimodal
cycles: text-to-image-to-text and image-to-text-to-image. The model is
optimized through cross-entropy loss computed at the cycle endpoints, where
both endpoints share the same modality. This facilitates self-evolution of the
model without reliance on annotated text-image pairs. Experimental results
demonstrate that for tasks independent of paired knowledge, such as
stylization, DoraCycle can effectively adapt the unified model using only
unpaired data. For tasks involving new paired knowledge, such as specific
identities, a combination of a small set of paired image-text examples and
larger-scale unpaired data is sufficient for effective domain-oriented
adaptation. The code will be released at https://github.com/showlab/DoraCycle.Summary
AI-Generated Summary