CatV2TON: Приручение Диффузионных Трансформеров для Примерки Виртуальной Одежды на Основе Зрения с Временным Конкатенированием

Аннотация

Технология виртуальной примерки (VTON) привлекла внимание благодаря своему потенциалу трансформировать онлайн-розницу, обеспечивая реалистичную визуализацию одежды на изображениях и видео. Однако большинство существующих методов испытывают трудности в достижении высококачественных результатов в задачах примерки на изображениях и видео, особенно в длинных видео-сценариях. В данной работе мы представляем CatV2TON, простой и эффективный метод виртуальной примерки на основе зрения (V2TON), который поддерживает как задачи примерки на изображениях, так и видео с использованием единой модели трансформера диффузии. Путем временного объединения входных данных о предмете одежды и человеке и обучения на смешанных наборах данных изображений и видео CatV2TON достигает надежного выполнения задач примерки как в статических, так и в динамических условиях. Для эффективной генерации длинных видео мы предлагаем стратегию вывода на основе перекрывающихся видеоклипов, которая использует последовательное руководство кадрами и адаптивную нормализацию клипов (AdaCN) для поддержания временной последовательности с уменьшенными требованиями к ресурсам. Мы также представляем ViViD-S, улучшенный набор данных для видео-примерки, достигнутый путем фильтрации обратных камерных кадров и применения сглаживания 3D-масок для улучшения временной последовательности. Комплексные эксперименты демонстрируют, что CatV2TON превосходит существующие методы как в задачах примерки на изображениях, так и видео, предлагая универсальное и надежное решение для реалистичной виртуальной примерки в различных сценариях.

English

Virtual try-on (VTON) technology has gained attention due to its potential to transform online retail by enabling realistic clothing visualization of images and videos. However, most existing methods struggle to achieve high-quality results across image and video try-on tasks, especially in long video scenarios. In this work, we introduce CatV2TON, a simple and effective vision-based virtual try-on (V2TON) method that supports both image and video try-on tasks with a single diffusion transformer model. By temporally concatenating garment and person inputs and training on a mix of image and video datasets, CatV2TON achieves robust try-on performance across static and dynamic settings. For efficient long-video generation, we propose an overlapping clip-based inference strategy that uses sequential frame guidance and Adaptive Clip Normalization (AdaCN) to maintain temporal consistency with reduced resource demands. We also present ViViD-S, a refined video try-on dataset, achieved by filtering back-facing frames and applying 3D mask smoothing for enhanced temporal consistency. Comprehensive experiments demonstrate that CatV2TON outperforms existing methods in both image and video try-on tasks, offering a versatile and reliable solution for realistic virtual try-ons across diverse scenarios.

CatV2TON: Приручение Диффузионных Трансформеров для Примерки Виртуальной Одежды на Основе Зрения с Временным Конкатенированием

CatV2TON: Taming Diffusion Transformers for Vision-Based Virtual Try-On with Temporal Concatenation

Аннотация

Support