FashionChameleon: Rumo à Customização Interativa e em Tempo Real de Vídeos de Vestuário Humano

Resumo

Customização de vídeo centrada no ser humano, particularmente ao nível do vestuário, tem demonstrado um valor comercial significativo. No entanto, as abordagens existentes não conseguem suportar um controlo de vestuário de baixa latência e interativo, que é crucial para aplicações como comércio eletrónico e criação de conteúdo. Este artigo estuda como alcançar a customização interativa de vídeo com múltiplas peças de vestuário, preservando a coerência de movimento, utilizando apenas dados de vídeo de uma única peça de vestuário. Apresentamos o FashionChameleon, uma estrutura em tempo real e interativa para customização de vestuário humano em geração de vídeo autorregressiva, onde os utilizadores podem trocar interativamente a peça de vestuário durante a geração. O FashionChameleon consiste em três técnicas principais: (i) Em vez de treinar em dados de vídeo com múltiplas peças de vestuário, treinamos um Modelo Professor com Aprendizado no Contexto num único par referência-vestuário. Ao reter o paradigma de treino imagem-para-vídeo enquanto impõe uma incompatibilidade entre a imagem de referência e a imagem da peça de vestuário, o modelo é incentivado a preservar implicitamente a coerência durante a troca de uma única peça de vestuário. (ii) Para alcançar consistência e eficiência durante a geração, introduzimos a Destilação em Fluxo com Aprendizado no Contexto, que ajusta o modelo com forçamento do professor no contexto e melhora a consistência de extrapolação via destilação de correspondência de distribuição com reponderação de gradiente. (iii) Para estender o modelo para customização interativa de vídeo com múltiplas peças de vestuário, propomos o Reagendamento de Cache KV Livre de Treinamento, que inclui atualização de KV da peça de vestuário, retirada de KV histórico e desembaraçamento de KV de referência para alcançar a troca de vestuário enquanto preserva a coerência de movimento. O nosso FashionChameleon suporta exclusivamente customização interativa e extrapolação consistente de vídeos longos, enquanto atinge geração em tempo real a 23.8 FPS numa única GPU, 30 a 180 vezes mais rápido que as linhas de base existentes.

English

Human-centric video customization, particularly at the garment level, has shown significant commercial value. However, existing approaches cannot support low-latency and interactive garment control, which is crucial for applications such as e-commerce and content creation. This paper studies how to achieve interactive multi-garment video customization while preserving motion coherence using only single-garment video data. We present FashionChameleon, a real-time and interactive framework for human-garment customization in autoregressive video generation, where users can interactively switch garment during generation. FashionChameleon consists of three key techniques: (i) Instead of training on multi-garment video data, we train a Teacher Model with In-Context Learning on a single reference-garment pair. By retaining the image-to-video training paradigm while enforcing a mismatch between the reference and garment image, the model is encouraged to implicitly preserve coherence during single-garment switching. (ii) To achieve consistency and efficiency during generation, we introduce Streaming Distillation with In-Context Learning, which fine-tunes the model with in-context teacher forcing and improves extrapolation consistency via gradient-reweighted distribution matching distillation. (iii) To extend the model for interactive multi-garment video customization, we propose Training-Free KV Cache Rescheduling, which includes garment KV refresh, historical KV withdraw, and reference KV disentangle to achieve garment switching while preserving motion coherence. Our FashionChameleon uniquely supports interactive customization and consistent long-video extrapolation, while achieving real-time generation at 23.8 FPS on a single GPU, 30-180times faster than existing baselines.