ChatPaper.aiChatPaper

FashionChameleon: на пути к интерактивной видео-кастомизации человека и одежды в реальном времени

FashionChameleon: Towards Real-Time and Interactive Human-Garment Video Customization

May 15, 2026
Авторы: Quanjian Song, Yefeng Shen, Mengting Chen, Hao Sun, Jinsong Lan, Xiaoyong Zhu, Bo Zheng, Liujuan Cao
cs.AI

Аннотация

Видеокастомизация, ориентированная на человека, особенно на уровне одежды, демонстрирует значительную коммерческую ценность. Однако существующие подходы не поддерживают низкую задержку и интерактивное управление одеждой, что критически важно для таких приложений, как электронная коммерция и создание контента. В данной работе исследуется, как добиться интерактивной многокомпонентной видеокастомизации одежды с сохранением согласованности движений, используя только данные видео с одним предметом одежды. Мы представляем FashionChameleon — фреймворк реального времени для интерактивной кастомизации одежды человека в авторегрессивной генерации видео, где пользователи могут интерактивно переключать предметы одежды в процессе генерации. FashionChameleon включает три ключевые техники: (i) Вместо обучения на видео с несколькими предметами одежды мы обучаем модель-учитель с помощью обучения в контексте на единственной паре «референс–одежда». Сохраняя парадигму обучения «изображение в видео» при обеспечении несоответствия между референсным изображением и изображением одежды, модель побуждается неявно сохранять согласованность при переключении одного предмета одежды. (ii) Для достижения согласованности и эффективности в ходе генерации мы вводим потоковую дистилляцию с обучением в контексте, которая донастраивает модель с помощью учительского принуждения в контексте и улучшает согласованность экстраполяции через дистилляцию методом согласования распределений с перевзвешиванием градиентов. (iii) Для расширения модели на интерактивную многокомпонентную видеокастомизацию одежды мы предлагаем не требующее обучения перепланирование KV-кэша, которое включает обновление KV для одежды, отзыв исторических KV и разделение референсных KV для достижения переключения одежды с сохранением согласованности движений. Наш FashionChameleon уникально поддерживает интерактивную кастомизацию и согласованную длительную экстраполяцию видео, одновременно обеспечивая генерацию в реальном времени со скоростью 23,8 кадра/с на одном GPU, что в 30–180 раз быстрее существующих базовых решений.
English
Human-centric video customization, particularly at the garment level, has shown significant commercial value. However, existing approaches cannot support low-latency and interactive garment control, which is crucial for applications such as e-commerce and content creation. This paper studies how to achieve interactive multi-garment video customization while preserving motion coherence using only single-garment video data. We present FashionChameleon, a real-time and interactive framework for human-garment customization in autoregressive video generation, where users can interactively switch garment during generation. FashionChameleon consists of three key techniques: (i) Instead of training on multi-garment video data, we train a Teacher Model with In-Context Learning on a single reference-garment pair. By retaining the image-to-video training paradigm while enforcing a mismatch between the reference and garment image, the model is encouraged to implicitly preserve coherence during single-garment switching. (ii) To achieve consistency and efficiency during generation, we introduce Streaming Distillation with In-Context Learning, which fine-tunes the model with in-context teacher forcing and improves extrapolation consistency via gradient-reweighted distribution matching distillation. (iii) To extend the model for interactive multi-garment video customization, we propose Training-Free KV Cache Rescheduling, which includes garment KV refresh, historical KV withdraw, and reference KV disentangle to achieve garment switching while preserving motion coherence. Our FashionChameleon uniquely supports interactive customization and consistent long-video extrapolation, while achieving real-time generation at 23.8 FPS on a single GPU, 30-180times faster than existing baselines.