Any2AnyTryon: Aprovechando Incrustaciones de Posición Adaptativas para Tareas Versátiles de Ropa Virtual
Any2AnyTryon: Leveraging Adaptive Position Embeddings for Versatile Virtual Clothing Tasks
January 27, 2025
Autores: Hailong Guo, Bohan Zeng, Yiren Song, Wentao Zhang, Chuang Zhang, Jiaming Liu
cs.AI
Resumen
El virtual try-on basado en imágenes (VTON) tiene como objetivo generar un resultado de prueba virtual transfiriendo una prenda de vestir de entrada a la imagen de una persona objetivo. Sin embargo, la escasez de datos emparejados de prendas y modelos dificulta que los métodos existentes logren una alta generalización y calidad en VTON. Además, limita la capacidad de generar pruebas sin máscara. Para abordar el problema de escasez de datos, enfoques como Stable Garment y MMTryon utilizan una estrategia de datos sintéticos, aumentando efectivamente la cantidad de datos emparejados en el lado del modelo. Sin embargo, los métodos existentes suelen estar limitados a realizar tareas específicas de prueba y carecen de facilidad de uso. Para mejorar la generalización y controlabilidad de la generación de VTON, proponemos Any2AnyTryon, que puede generar resultados de prueba basados en diferentes instrucciones textuales e imágenes de prendas modelo para satisfacer diversas necesidades, eliminando la dependencia de máscaras, poses u otras condiciones. Específicamente, primero construimos el conjunto de datos de prueba virtual LAION-Garment, el conjunto de datos de prueba de prendas de vestir de código abierto más grande conocido. Luego, introducimos la incrustación de posición adaptativa, que permite que el modelo genere imágenes de modelos equipados o imágenes de prendas satisfactorias basadas en imágenes de entrada de diferentes tamaños y categorías, mejorando significativamente la generalización y controlabilidad de la generación de VTON. En nuestros experimentos, demostramos la efectividad de nuestro Any2AnyTryon y lo comparamos con los métodos existentes. Los resultados muestran que Any2AnyTryon permite una generación flexible, controlable y de alta calidad de pruebas virtuales basadas en imágenes.
English
Image-based virtual try-on (VTON) aims to generate a virtual try-on result by
transferring an input garment onto a target person's image. However, the
scarcity of paired garment-model data makes it challenging for existing methods
to achieve high generalization and quality in VTON. Also, it limits the ability
to generate mask-free try-ons. To tackle the data scarcity problem, approaches
such as Stable Garment and MMTryon use a synthetic data strategy, effectively
increasing the amount of paired data on the model side. However, existing
methods are typically limited to performing specific try-on tasks and lack
user-friendliness. To enhance the generalization and controllability of VTON
generation, we propose Any2AnyTryon, which can generate try-on results based on
different textual instructions and model garment images to meet various needs,
eliminating the reliance on masks, poses, or other conditions. Specifically, we
first construct the virtual try-on dataset LAION-Garment, the largest known
open-source garment try-on dataset. Then, we introduce adaptive position
embedding, which enables the model to generate satisfactory outfitted model
images or garment images based on input images of different sizes and
categories, significantly enhancing the generalization and controllability of
VTON generation. In our experiments, we demonstrate the effectiveness of our
Any2AnyTryon and compare it with existing methods. The results show that
Any2AnyTryon enables flexible, controllable, and high-quality image-based
virtual try-on generation.https://logn-2024.github.io/Any2anyTryonProjectPage/Summary
AI-Generated Summary