Any2AnyTryon: Aprovechando Incrustaciones de Posición Adaptativas para Tareas Versátiles de Ropa Virtual

Resumen

El virtual try-on basado en imágenes (VTON) tiene como objetivo generar un resultado de prueba virtual transfiriendo una prenda de vestir de entrada a la imagen de una persona objetivo. Sin embargo, la escasez de datos emparejados de prendas y modelos dificulta que los métodos existentes logren una alta generalización y calidad en VTON. Además, limita la capacidad de generar pruebas sin máscara. Para abordar el problema de escasez de datos, enfoques como Stable Garment y MMTryon utilizan una estrategia de datos sintéticos, aumentando efectivamente la cantidad de datos emparejados en el lado del modelo. Sin embargo, los métodos existentes suelen estar limitados a realizar tareas específicas de prueba y carecen de facilidad de uso. Para mejorar la generalización y controlabilidad de la generación de VTON, proponemos Any2AnyTryon, que puede generar resultados de prueba basados en diferentes instrucciones textuales e imágenes de prendas modelo para satisfacer diversas necesidades, eliminando la dependencia de máscaras, poses u otras condiciones. Específicamente, primero construimos el conjunto de datos de prueba virtual LAION-Garment, el conjunto de datos de prueba de prendas de vestir de código abierto más grande conocido. Luego, introducimos la incrustación de posición adaptativa, que permite que el modelo genere imágenes de modelos equipados o imágenes de prendas satisfactorias basadas en imágenes de entrada de diferentes tamaños y categorías, mejorando significativamente la generalización y controlabilidad de la generación de VTON. En nuestros experimentos, demostramos la efectividad de nuestro Any2AnyTryon y lo comparamos con los métodos existentes. Los resultados muestran que Any2AnyTryon permite una generación flexible, controlable y de alta calidad de pruebas virtuales basadas en imágenes.

English

Image-based virtual try-on (VTON) aims to generate a virtual try-on result by transferring an input garment onto a target person's image. However, the scarcity of paired garment-model data makes it challenging for existing methods to achieve high generalization and quality in VTON. Also, it limits the ability to generate mask-free try-ons. To tackle the data scarcity problem, approaches such as Stable Garment and MMTryon use a synthetic data strategy, effectively increasing the amount of paired data on the model side. However, existing methods are typically limited to performing specific try-on tasks and lack user-friendliness. To enhance the generalization and controllability of VTON generation, we propose Any2AnyTryon, which can generate try-on results based on different textual instructions and model garment images to meet various needs, eliminating the reliance on masks, poses, or other conditions. Specifically, we first construct the virtual try-on dataset LAION-Garment, the largest known open-source garment try-on dataset. Then, we introduce adaptive position embedding, which enables the model to generate satisfactory outfitted model images or garment images based on input images of different sizes and categories, significantly enhancing the generalization and controllability of VTON generation. In our experiments, we demonstrate the effectiveness of our Any2AnyTryon and compare it with existing methods. The results show that Any2AnyTryon enables flexible, controllable, and high-quality image-based virtual try-on generation.https://logn-2024.github.io/Any2anyTryonProjectPage/

Any2AnyTryon: Aprovechando Incrustaciones de Posición Adaptativas para Tareas Versátiles de Ropa Virtual

Any2AnyTryon: Leveraging Adaptive Position Embeddings for Versatile Virtual Clothing Tasks

Resumen

Support