FashionChameleon: Auf dem Weg zu Echtzeit- und interaktiver Videopersonalisierung von Mensch und Kleidung

Zusammenfassung

Menschzentrierte Videopersonalisierung, insbesondere auf der Ebene von Kleidungsstücken, hat einen erheblichen kommerziellen Wert gezeigt. Bestehende Ansätze unterstützen jedoch keine niedrige Latenz und interaktive Steuerung von Kleidungsstücken, was für Anwendungen wie E-Commerce und Content-Erstellung entscheidend ist. In dieser Arbeit wird untersucht, wie eine interaktive Videopersonalisierung mit mehreren Kleidungsstücken unter Wahrung der Bewegungskohärenz allein mit Videodaten eines einzelnen Kleidungsstücks erreicht werden kann. Wir stellen FashionChameleon vor, ein Echtzeit- und interaktives Framework für die Personalisierung menschlicher Kleidungsstücke in der autoregressiven Videogenerierung, bei dem Benutzer während der Generierung interaktiv zwischen Kleidungsstücken wechseln können. FashionChameleon besteht aus drei Schlüsseltechniken: (i) Anstatt auf Videodaten mehrerer Kleidungsstücke zu trainieren, trainieren wir ein Lehrermodell mit In-Context-Learning auf einem einzelnen Referenz-Kleidungsstück-Paar. Durch die Beibehaltung des Bild-zu-Video-Trainingsparadigmas bei gleichzeitiger Erzwingung eines Missverhältnisses zwischen Referenz und Kleidungsstückbild wird das Modell angeregt, beim Wechsel einzelner Kleidungsstücke implizit die Kohärenz zu wahren. (ii) Um Konsistenz und Effizienz während der Generierung zu erreichen, führen wir Streaming-Destillation mit In-Context-Learning ein, das das Modell mit In-Context-Teacher-Forcing verfeinert und die Extrapolationskonsistenz durch gradientengewichtete Verteilungsabgleichsdestillation verbessert. (iii) Um das Modell auf interaktive Videopersonalisierung mit mehreren Kleidungsstücken zu erweitern, schlagen wir trainingsfreie KV-Cache-Neuplanung vor, die eine Aktualisierung des Kleidungsstück-KV, einen Rückzug des historischen KV und eine Entkopplung des Referenz-KV umfasst, um einen Kleidungsstückwechsel bei gleichzeitiger Wahrung der Bewegungskohärenz zu ermöglichen. Unser FashionChameleon unterstützt einzigartig interaktive Personalisierung und konsistente Langvideo-Extrapolation und erreicht eine Echtzeitgenerierung mit 23,8 FPS auf einer einzelnen GPU, 30- bis 180-mal schneller als bestehende Basislinien.

English

Human-centric video customization, particularly at the garment level, has shown significant commercial value. However, existing approaches cannot support low-latency and interactive garment control, which is crucial for applications such as e-commerce and content creation. This paper studies how to achieve interactive multi-garment video customization while preserving motion coherence using only single-garment video data. We present FashionChameleon, a real-time and interactive framework for human-garment customization in autoregressive video generation, where users can interactively switch garment during generation. FashionChameleon consists of three key techniques: (i) Instead of training on multi-garment video data, we train a Teacher Model with In-Context Learning on a single reference-garment pair. By retaining the image-to-video training paradigm while enforcing a mismatch between the reference and garment image, the model is encouraged to implicitly preserve coherence during single-garment switching. (ii) To achieve consistency and efficiency during generation, we introduce Streaming Distillation with In-Context Learning, which fine-tunes the model with in-context teacher forcing and improves extrapolation consistency via gradient-reweighted distribution matching distillation. (iii) To extend the model for interactive multi-garment video customization, we propose Training-Free KV Cache Rescheduling, which includes garment KV refresh, historical KV withdraw, and reference KV disentangle to achieve garment switching while preserving motion coherence. Our FashionChameleon uniquely supports interactive customization and consistent long-video extrapolation, while achieving real-time generation at 23.8 FPS on a single GPU, 30-180times faster than existing baselines.