FastFit: 캐시 가능한 확산 모델을 통한 다중 참조 가상 피팅 가속화
FastFit: Accelerating Multi-Reference Virtual Try-On via Cacheable Diffusion Models
August 28, 2025
저자: Zheng Chong, Yanwei Lei, Shiyue Zhang, Zhuandi He, Zhen Wang, Xujie Zhang, Xiao Dong, Yiling Wu, Dongmei Jiang, Xiaodan Liang
cs.AI
초록
가상 피팅 기술은 큰 잠재력을 지니고 있지만, 두 가지 주요 과제로 인해 실제 적용에 어려움을 겪고 있습니다. 첫째, 현재의 방법들은 의류와 액세서리를 포함한 다중 참조 의상 구성을 지원하지 못하며, 둘째, 각 디노이징 단계에서 참조 특징을 불필요하게 재계산함으로써 발생하는 심각한 비효율성입니다. 이러한 과제를 해결하기 위해, 우리는 새로운 캐시 가능한 디퓨전 아키텍처를 기반으로 한 고속 다중 참조 가상 피팅 프레임워크인 FastFit을 제안합니다. Semi-Attention 메커니즘을 도입하고 기존의 타임스텝 임베딩을 참조 항목에 대한 클래스 임베딩으로 대체함으로써, 우리의 모델은 디노이징 프로세스에서 참조 특징 인코딩을 완전히 분리하며, 이는 미미한 파라미터 오버헤드로 가능합니다. 이를 통해 참조 특징은 한 번만 계산되고 모든 단계에서 무손실로 재사용될 수 있어, 효율성 병목 현상을 근본적으로 해결하고 비교 가능한 방법들 대비 평균 3.5배의 속도 향상을 달성했습니다. 또한, 복잡한 다중 참조 가상 피팅 연구를 촉진하기 위해, 우리는 새로운 대규모 데이터셋인 DressCode-MR을 소개합니다. 이 데이터셋은 상의, 하의, 드레스, 신발, 가방 등 다섯 가지 주요 카테고리를 아우르는 28,179세트의 고품질 짝 이미지로 구성되어 있으며, 전문가 모델과 인간 피드백을 통한 정제 파이프라인을 통해 구축되었습니다. VITON-HD, DressCode, 그리고 우리의 DressCode-MR 데이터셋에 대한 광범위한 실험을 통해, FastFit이 주요 충실도 지표에서 최신 방법들을 능가하면서도 추론 효율성에서 상당한 이점을 제공함을 확인했습니다.
English
Despite its great potential, virtual try-on technology is hindered from
real-world application by two major challenges: the inability of current
methods to support multi-reference outfit compositions (including garments and
accessories), and their significant inefficiency caused by the redundant
re-computation of reference features in each denoising step. To address these
challenges, we propose FastFit, a high-speed multi-reference virtual try-on
framework based on a novel cacheable diffusion architecture. By employing a
Semi-Attention mechanism and substituting traditional timestep embeddings with
class embeddings for reference items, our model fully decouples reference
feature encoding from the denoising process with negligible parameter overhead.
This allows reference features to be computed only once and losslessly reused
across all steps, fundamentally breaking the efficiency bottleneck and
achieving an average 3.5x speedup over comparable methods. Furthermore, to
facilitate research on complex, multi-reference virtual try-on, we introduce
DressCode-MR, a new large-scale dataset. It comprises 28,179 sets of
high-quality, paired images covering five key categories (tops, bottoms,
dresses, shoes, and bags), constructed through a pipeline of expert models and
human feedback refinement. Extensive experiments on the VITON-HD, DressCode,
and our DressCode-MR datasets show that FastFit surpasses state-of-the-art
methods on key fidelity metrics while offering its significant advantage in
inference efficiency.