FashionChameleon : vers une personnalisation interactive et en temps réel de vidéos humain-vêtement

Résumé

Personnalisation vidéo centrée sur l'humain, en particulier au niveau du vêtement, présente une valeur commerciale significative. Cependant, les approches existantes ne permettent pas un contrôle interactif et à faible latence des vêtements, essentiel pour des applications telles que le commerce électronique et la création de contenu. Cet article étudie comment réaliser une personnalisation vidéo interactive multi-vêtements tout en préservant la cohérence du mouvement, en utilisant uniquement des données vidéo d'un seul vêtement. Nous présentons FashionChameleon, un cadre interactif et en temps réel pour la personnalisation humain-vêtement dans la génération vidéo autorégressive, où les utilisateurs peuvent changer interactivement de vêtement pendant la génération. FashionChameleon repose sur trois techniques clés : (i) Au lieu d'un entraînement sur des données vidéo multi-vêtements, nous entraînons un Modèle Enseignant avec Apprentissage en Contexte sur une paire référence-vêtement unique. En conservant le paradigme d'entraînement image-vers-vidéo tout en imposant une discordance entre l'image de référence et l'image du vêtement, le modèle est encouragé à préserver implicitement la cohérence lors du changement d'un seul vêtement. (ii) Pour atteindre cohérence et efficacité durant la génération, nous introduisons la Distillation en Flux avec Apprentissage en Contexte, qui affine le modèle par forçage enseignant en contexte et améliore la cohérence d'extrapolation via une distillation par appariement de distributions repondérée par gradient. (iii) Pour étendre le modèle à la personnalisation vidéo interactive multi-vêtements, nous proposons la Réorganisation du Cache KV sans Entraînement, qui inclut le rafraîchissement KV du vêtement, le retrait KV historique et le démêlage KV de référence, permettant le changement de vêtement tout en préservant la cohérence du mouvement. Notre FashionChameleon prend en charge de manière unique la personnalisation interactive et l'extrapolation cohérente de longues vidéos, tout en réalisant une génération en temps réel à 23,8 FPS sur un seul GPU, soit 30 à 180 fois plus rapide que les références existantes.

English

Human-centric video customization, particularly at the garment level, has shown significant commercial value. However, existing approaches cannot support low-latency and interactive garment control, which is crucial for applications such as e-commerce and content creation. This paper studies how to achieve interactive multi-garment video customization while preserving motion coherence using only single-garment video data. We present FashionChameleon, a real-time and interactive framework for human-garment customization in autoregressive video generation, where users can interactively switch garment during generation. FashionChameleon consists of three key techniques: (i) Instead of training on multi-garment video data, we train a Teacher Model with In-Context Learning on a single reference-garment pair. By retaining the image-to-video training paradigm while enforcing a mismatch between the reference and garment image, the model is encouraged to implicitly preserve coherence during single-garment switching. (ii) To achieve consistency and efficiency during generation, we introduce Streaming Distillation with In-Context Learning, which fine-tunes the model with in-context teacher forcing and improves extrapolation consistency via gradient-reweighted distribution matching distillation. (iii) To extend the model for interactive multi-garment video customization, we propose Training-Free KV Cache Rescheduling, which includes garment KV refresh, historical KV withdraw, and reference KV disentangle to achieve garment switching while preserving motion coherence. Our FashionChameleon uniquely supports interactive customization and consistent long-video extrapolation, while achieving real-time generation at 23.8 FPS on a single GPU, 30-180times faster than existing baselines.