FashionChameleon: Hacia la personalización interactiva de video humano-prenda en tiempo real

Resumen

La personalización de video centrada en humanos, particularmente a nivel de prendas de vestir, ha demostrado un significativo valor comercial. Sin embargo, los enfoques existentes no permiten un control interactivo y de baja latencia sobre las prendas, lo cual es crucial para aplicaciones como el comercio electrónico y la creación de contenido. Este estudio investiga cómo lograr una personalización interactiva de múltiples prendas en video, manteniendo la coherencia del movimiento, utilizando únicamente datos de video de una sola prenda. Presentamos FashionChameleon, un marco interactivo y en tiempo real para la personalización de prendas humanas en la generación autorregresiva de video, donde los usuarios pueden cambiar interactivamente la prenda durante la generación. FashionChameleon consta de tres técnicas clave: (i) En lugar de entrenar con datos de video de múltiples prendas, entrenamos un modelo maestro con aprendizaje en contexto a partir de un único par de referencia-prenda. Al mantener el paradigma de entrenamiento de imagen a video e imponer un desajuste entre la imagen de referencia y la prenda, se alienta al modelo a preservar implícitamente la coherencia durante el cambio de una sola prenda. (ii) Para lograr consistencia y eficiencia durante la generación, introducimos destilación en flujo continuo con aprendizaje en contexto, que ajusta el modelo mediante forzamiento de contexto maestro y mejora la consistencia de extrapolación mediante destilación de distribución con reponderación de gradientes. (iii) Para extender el modelo a la personalización interactiva de múltiples prendas en video, proponemos reprogramación de caché KV sin entrenamiento, que incluye actualización de KV de prendas, retiro de KV históricos y desentrelazado de KV de referencia para lograr el cambio de prendas mientras se preserva la coherencia del movimiento. Nuestro FashionChameleon admite de manera única la personalización interactiva y la extrapolación consistente de video largo, logrando una generación en tiempo real a 23.8 FPS en una sola GPU, entre 30 y 180 veces más rápido que los métodos de referencia existentes.

English

Human-centric video customization, particularly at the garment level, has shown significant commercial value. However, existing approaches cannot support low-latency and interactive garment control, which is crucial for applications such as e-commerce and content creation. This paper studies how to achieve interactive multi-garment video customization while preserving motion coherence using only single-garment video data. We present FashionChameleon, a real-time and interactive framework for human-garment customization in autoregressive video generation, where users can interactively switch garment during generation. FashionChameleon consists of three key techniques: (i) Instead of training on multi-garment video data, we train a Teacher Model with In-Context Learning on a single reference-garment pair. By retaining the image-to-video training paradigm while enforcing a mismatch between the reference and garment image, the model is encouraged to implicitly preserve coherence during single-garment switching. (ii) To achieve consistency and efficiency during generation, we introduce Streaming Distillation with In-Context Learning, which fine-tunes the model with in-context teacher forcing and improves extrapolation consistency via gradient-reweighted distribution matching distillation. (iii) To extend the model for interactive multi-garment video customization, we propose Training-Free KV Cache Rescheduling, which includes garment KV refresh, historical KV withdraw, and reference KV disentangle to achieve garment switching while preserving motion coherence. Our FashionChameleon uniquely supports interactive customization and consistent long-video extrapolation, while achieving real-time generation at 23.8 FPS on a single GPU, 30-180times faster than existing baselines.