DoraCycle:マルチモーダルサイクルにおける統一生成モデルのドメイン指向適応
DoraCycle: Domain-Oriented Adaptation of Unified Generative Model in Multimodal Cycles
March 5, 2025
著者: Rui Zhao, Weijia Mao, Mike Zheng Shou
cs.AI
要旨
特定のドメインに生成モデルを適応させることは、専門的な要件を満たすための効果的な解決策を提供します。しかし、複雑なドメインへの適応は依然として課題であり、特にこれらのドメインが対象とする分布を捉えるために大量のペアデータを必要とする場合に顕著です。視覚や言語といった単一モダリティの非ペアデータはより容易に入手可能であるため、我々は統一生成モデルによって学習された視覚と言語間の双方向マッピングを活用し、ドメイン適応のための非ペアデータでの学習を可能にします。具体的には、テキストから画像へ、そして再びテキストへというマルチモーダルサイクルと、画像からテキストへ、そして再び画像へというサイクルを統合したDoraCycleを提案します。このモデルは、サイクルの終点で計算されるクロスエントロピー損失を通じて最適化され、両終点は同じモダリティを共有します。これにより、注釈付きテキスト-画像ペアに依存せずにモデルの自己進化が促進されます。実験結果は、スタイライゼーションのようなペア知識に依存しないタスクにおいて、DoraCycleが非ペアデータのみを使用して統一モデルを効果的に適応できることを示しています。特定のアイデンティティのような新しいペア知識を必要とするタスクでは、少数のペア画像-テキスト例と大規模な非ペアデータの組み合わせが、効果的なドメイン指向の適応に十分であることが確認されました。コードはhttps://github.com/showlab/DoraCycleで公開されます。
English
Adapting generative models to specific domains presents an effective solution
for satisfying specialized requirements. However, adapting to some complex
domains remains challenging, especially when these domains require substantial
paired data to capture the targeted distributions. Since unpaired data from a
single modality, such as vision or language, is more readily available, we
utilize the bidirectional mappings between vision and language learned by the
unified generative model to enable training on unpaired data for domain
adaptation. Specifically, we propose DoraCycle, which integrates two multimodal
cycles: text-to-image-to-text and image-to-text-to-image. The model is
optimized through cross-entropy loss computed at the cycle endpoints, where
both endpoints share the same modality. This facilitates self-evolution of the
model without reliance on annotated text-image pairs. Experimental results
demonstrate that for tasks independent of paired knowledge, such as
stylization, DoraCycle can effectively adapt the unified model using only
unpaired data. For tasks involving new paired knowledge, such as specific
identities, a combination of a small set of paired image-text examples and
larger-scale unpaired data is sufficient for effective domain-oriented
adaptation. The code will be released at https://github.com/showlab/DoraCycle.Summary
AI-Generated Summary