DomainShuttle: vrijvormige open-domein onderwerpgestuurde tekst-naar-video generatie

Samenvatting

Open-domein subject-gestuurde tekst-naar-video (S2V) generatie heeft aanzienlijke belangstelling getrokken in de academische wereld en de industrie. Open-domein S2V omvat hoofdzakelijk twee scenario's: binnen-domein, waarbij de kenmerken van het referentie-subject zoveel mogelijk behouden moeten blijven, en kruis-domein, waarbij de intrinsieke kenmerken van het subject behouden blijven maar niet-subject-gerelateerde eigenschappen flexibel kunnen variëren volgens de tekstprompt. Bestaande methoden richten zich voornamelijk op het maximaliseren van subject-getrouwheid in binnen-domein scenario's, wat hun bewerkbaarheid en aanpasbaarheid in kruis-domein scenario's, zoals nieuwe stijlen, semantische combinaties of domeinkenmerken, beperkt. In deze studie stellen we voor dat een ideale S2V-methode flexibel moet kunnen schakelen tussen verschillende domeinen, en sterke prestaties moet leveren in zowel binnen-domein als kruis-domein scenario's. Daartoe introduceren we DomainShuttle, dat hoge getrouwheid en generatieve flexibiliteit kan bereiken voor open-domein videopersonalisatie. Specifiek introduceren we Domain-MoT, dat video's en referentiekenmerken ontkoppelt en het domeinbewuste AdaLN introduceert voor domeinspecifieke modellering van referentieafbeeldingen. Vervolgens introduceren we het Video-Reference DualRoPE schema, dat referentieafbeeldingstokens en videotokens in afzonderlijke RoPE-ruimtes plaatst om nauwkeurige subject-niveau ruimtelijke modellering mogelijk te maken, en Cross-Pair Consistent Loss, dat gericht is op het extraheren van intrinsieke subjectkenmerken die niet worden beïnvloed door irrelevante kenmerken. Uitgebreide experimenten tonen aan dat DomainShuttle aanzienlijke prestatieverbeteringen behaalt ten opzichte van bestaande methoden, met een hoge subject-getrouwheid en generatieve flexibiliteit in uiteenlopende open-domein toepassingsscenario's.

English

Open domain subject-driven text-to-video (S2V) generation has drawn significant interest in academia and industry. Open domain S2V mainly involves two scenarios: in-domain, which requires retaining the reference subject features as much as possible, and cross-domain, which preserves the intrinsic features of the subject while allowing subject-irrelevant properties to vary flexibly according to the text prompt. Existing methods primarily focus on maximizing subject fidelity in in-domain scenarios, which limits their editability and adaptability in cross-domain scenarios, such as novel styles, semantic combinations, or domain attributes. In this study, we propose that an ideal S2V method should flexibly shuttle between different domains, achieving strong performance in both in-domain and cross-domain scenarios. To this end, we propose DomainShuttle, which could achieve high fidelity and generative flexibility for open domain video personalization. Specifically, we introduce Domain-MoT, which decouples videos and reference features and introduces the domain-aware AdaLN for domain-specific modeling of reference images. We then introduce the Video-Reference DualRoPE scheme, which places reference image tokens and video tokens in separate RoPE spaces to enable precise subject-level spatial modeling, and Cross-Pair Consistent Loss, which aims to extract intrinsic subject features unaffected by irrelevant features. Extensive experiments demonstrate that DomainShuttle achieves significant performance improvements over existing methods, exhibiting high subject fidelity and generative flexibility across diverse open domain application scenarios.