FashionChameleon: Naar real-time en interactieve videocustomisatie van mens en kleding

Samenvatting

Mensgerichte videocustomisatie, met name op kledingstukniveau, heeft aanzienlijke commerciële waarde getoond. Bestaande benaderingen kunnen echter geen lage latentie en interactieve controle over kledingstukken bieden, wat cruciaal is voor toepassingen zoals e-commerce en contentcreatie. Dit artikel onderzoekt hoe interactieve videocustomisatie met meerdere kledingstukken kan worden gerealiseerd, met behoud van bewegingscoherentie, waarbij alleen videogegevens van één kledingstuk worden gebruikt. We presenteren FashionChameleon, een real-time en interactief raamwerk voor mens-kledingstuk-customisatie in autoregressieve videogeneratie, waarbij gebruikers tijdens de generatie interactief kunnen wisselen van kledingstuk. FashionChameleon bestaat uit drie kerntechnieken: (i) In plaats van te trainen op videogegevens met meerdere kledingstukken, trainen we een Leraarmodel met In-Context-Leren op een enkel referentie-kledingstuk-paar. Door het beeld-naar-video-trainingsparadigma te behouden en tegelijkertijd een mismatch tussen de referentie en de kledingstukafbeelding af te dwingen, wordt het model aangemoedigd om impliciet coherentie te behouden tijdens het wisselen van een enkel kledingstuk. (ii) Om consistentie en efficiëntie tijdens de generatie te bereiken, introduceren we Streaming Destillatie met In-Context-Leren, waarbij het model wordt verfijnd met in-context teacher forcing en de extrapolatieconsistentie wordt verbeterd via gradiënt-herwogen distributie-matching destillatie. (iii) Om het model uit te breiden voor interactieve videocustomisatie met meerdere kledingstukken, stellen we Training-Vrije KV-Cache-Herschikking voor, die bestaat uit het verversen van de kledingstuk-KV, het intrekken van historische KV en het ontwarren van referentie-KV om het wisselen van kledingstuk te realiseren met behoud van bewegingscoherentie. Onze FashionChameleon ondersteunt uniek interactieve customisatie en consistente extrapolatie van lange video's, terwijl real-time generatie wordt bereikt met 23,8 FPS op een enkele GPU, 30-180 keer sneller dan bestaande baselines.

English

Human-centric video customization, particularly at the garment level, has shown significant commercial value. However, existing approaches cannot support low-latency and interactive garment control, which is crucial for applications such as e-commerce and content creation. This paper studies how to achieve interactive multi-garment video customization while preserving motion coherence using only single-garment video data. We present FashionChameleon, a real-time and interactive framework for human-garment customization in autoregressive video generation, where users can interactively switch garment during generation. FashionChameleon consists of three key techniques: (i) Instead of training on multi-garment video data, we train a Teacher Model with In-Context Learning on a single reference-garment pair. By retaining the image-to-video training paradigm while enforcing a mismatch between the reference and garment image, the model is encouraged to implicitly preserve coherence during single-garment switching. (ii) To achieve consistency and efficiency during generation, we introduce Streaming Distillation with In-Context Learning, which fine-tunes the model with in-context teacher forcing and improves extrapolation consistency via gradient-reweighted distribution matching distillation. (iii) To extend the model for interactive multi-garment video customization, we propose Training-Free KV Cache Rescheduling, which includes garment KV refresh, historical KV withdraw, and reference KV disentangle to achieve garment switching while preserving motion coherence. Our FashionChameleon uniquely supports interactive customization and consistent long-video extrapolation, while achieving real-time generation at 23.8 FPS on a single GPU, 30-180times faster than existing baselines.