FastFit: Acelerando o Virtual Try-On com Múltiplas Referências por meio de Modelos de Difusão Armazenáveis em Cache
FastFit: Accelerating Multi-Reference Virtual Try-On via Cacheable Diffusion Models
August 28, 2025
Autores: Zheng Chong, Yanwei Lei, Shiyue Zhang, Zhuandi He, Zhen Wang, Xujie Zhang, Xiao Dong, Yiling Wu, Dongmei Jiang, Xiaodan Liang
cs.AI
Resumo
Apesar de seu grande potencial, a tecnologia de experimentação virtual é impedida de aplicação no mundo real por dois grandes desafios: a incapacidade dos métodos atuais de suportar composições de roupas com múltiplas referências (incluindo peças de vestuário e acessórios) e sua significativa ineficiência causada pela recomputação redundante de características de referência em cada etapa de remoção de ruído. Para enfrentar esses desafios, propomos o FastFit, um framework de experimentação virtual de múltiplas referências de alta velocidade baseado em uma nova arquitetura de difusão com cache. Ao empregar um mecanismo de Semi-Atenção e substituir as incorporações tradicionais de timestep por incorporações de classe para itens de referência, nosso modelo desacopla completamente a codificação de características de referência do processo de remoção de ruído com sobrecarga de parâmetros insignificante. Isso permite que as características de referência sejam calculadas apenas uma vez e reutilizadas sem perdas em todas as etapas, quebrando fundamentalmente o gargalo de eficiência e alcançando uma aceleração média de 3,5x em relação a métodos comparáveis. Além disso, para facilitar a pesquisa em experimentação virtual complexa com múltiplas referências, introduzimos o DressCode-MR, um novo conjunto de dados em larga escala. Ele compreende 28.179 conjuntos de imagens de alta qualidade e pareadas, cobrindo cinco categorias principais (partes de cima, partes de baixo, vestidos, sapatos e bolsas), construídos por meio de um pipeline de modelos especializados e refinamento com feedback humano. Experimentos extensivos nos conjuntos de dados VITON-HD, DressCode e nosso DressCode-MR mostram que o FastFit supera os métodos state-of-the-art em métricas-chave de fidelidade, ao mesmo tempo em que oferece sua vantagem significativa em eficiência de inferência.
English
Despite its great potential, virtual try-on technology is hindered from
real-world application by two major challenges: the inability of current
methods to support multi-reference outfit compositions (including garments and
accessories), and their significant inefficiency caused by the redundant
re-computation of reference features in each denoising step. To address these
challenges, we propose FastFit, a high-speed multi-reference virtual try-on
framework based on a novel cacheable diffusion architecture. By employing a
Semi-Attention mechanism and substituting traditional timestep embeddings with
class embeddings for reference items, our model fully decouples reference
feature encoding from the denoising process with negligible parameter overhead.
This allows reference features to be computed only once and losslessly reused
across all steps, fundamentally breaking the efficiency bottleneck and
achieving an average 3.5x speedup over comparable methods. Furthermore, to
facilitate research on complex, multi-reference virtual try-on, we introduce
DressCode-MR, a new large-scale dataset. It comprises 28,179 sets of
high-quality, paired images covering five key categories (tops, bottoms,
dresses, shoes, and bags), constructed through a pipeline of expert models and
human feedback refinement. Extensive experiments on the VITON-HD, DressCode,
and our DressCode-MR datasets show that FastFit surpasses state-of-the-art
methods on key fidelity metrics while offering its significant advantage in
inference efficiency.