ChatPaper.aiChatPaper

CatV2TON: Domando Transformadores de Difusão para Prova Virtual Baseada em Visão com Concatenação Temporal

CatV2TON: Taming Diffusion Transformers for Vision-Based Virtual Try-On with Temporal Concatenation

January 20, 2025
Autores: Zheng Chong, Wenqing Zhang, Shiyue Zhang, Jun Zheng, Xiao Dong, Haoxiang Li, Yiling Wu, Dongmei Jiang, Xiaodan Liang
cs.AI

Resumo

A tecnologia de provador virtual (VTON) tem ganhado atenção devido ao seu potencial para transformar o varejo online, permitindo a visualização realista de roupas em imagens e vídeos. No entanto, a maioria dos métodos existentes enfrenta dificuldades para obter resultados de alta qualidade em tarefas de provação de imagem e vídeo, especialmente em cenários de vídeo longos. Neste trabalho, apresentamos o CatV2TON, um método de provador virtual baseado em visão (V2TON) simples e eficaz que suporta tanto tarefas de provação de imagem quanto de vídeo com um único modelo de transformador de difusão. Ao concatenar temporalmente as entradas de vestuário e pessoa e treinar com uma mistura de conjuntos de dados de imagem e vídeo, o CatV2TON alcança um desempenho robusto de provação em configurações estáticas e dinâmicas. Para uma geração eficiente de vídeos longos, propomos uma estratégia de inferência baseada em clipes sobrepostos que utiliza orientação de quadro sequencial e Normalização Adaptativa de Clipes (AdaCN) para manter consistência temporal com demandas de recursos reduzidas. Também apresentamos o ViViD-S, um conjunto de dados refinado de provação de vídeo, obtido filtrando quadros de costas e aplicando suavização de máscara 3D para uma consistência temporal aprimorada. Experimentos abrangentes demonstram que o CatV2TON supera os métodos existentes em tarefas de provação de imagem e vídeo, oferecendo uma solução versátil e confiável para provas virtuais realistas em diversos cenários.
English
Virtual try-on (VTON) technology has gained attention due to its potential to transform online retail by enabling realistic clothing visualization of images and videos. However, most existing methods struggle to achieve high-quality results across image and video try-on tasks, especially in long video scenarios. In this work, we introduce CatV2TON, a simple and effective vision-based virtual try-on (V2TON) method that supports both image and video try-on tasks with a single diffusion transformer model. By temporally concatenating garment and person inputs and training on a mix of image and video datasets, CatV2TON achieves robust try-on performance across static and dynamic settings. For efficient long-video generation, we propose an overlapping clip-based inference strategy that uses sequential frame guidance and Adaptive Clip Normalization (AdaCN) to maintain temporal consistency with reduced resource demands. We also present ViViD-S, a refined video try-on dataset, achieved by filtering back-facing frames and applying 3D mask smoothing for enhanced temporal consistency. Comprehensive experiments demonstrate that CatV2TON outperforms existing methods in both image and video try-on tasks, offering a versatile and reliable solution for realistic virtual try-ons across diverse scenarios.

Summary

AI-Generated Summary

PDF53January 27, 2025