FashionLens: Hacia la recuperación versátil de imágenes de moda mediante aprendizaje adaptativo a la tarea

Resumen

La recuperación de imágenes de moda es un pilar fundamental en los sistemas modernos de comercio electrónico. En la práctica, se desea contar con un marco unificado que admita diversos formatos de consulta e intenciones de búsqueda. Sin embargo, los enfoques existentes se centran en tareas de recuperación estrechas y no capturan completamente dicha diversidad. Por lo tanto, en este trabajo nos proponemos desarrollar un marco unificado capaz de manejar diversos escenarios realistas de recuperación de moda, logrando una recuperación de imágenes de moda verdaderamente versátil. Para establecer una base de datos, presentamos primero U-FIRE, un benchmark integral que consolida conjuntos de datos fragmentados de moda en una colección unificada, complementada con dos conjuntos de datos curados manualmente para probar la generalización. Sobre esta base, proponemos FashionLens, un marco unificado basado en Modelos de Lenguaje Grande Multimodales. Para manejar objetivos de coincidencia divergentes, diseñamos un Calibrador de Consultas Esféricas Guiado por Propuestas que desplaza dinámicamente las representaciones de consulta hacia espacios métricos alineados con la tarea mediante interpolación lineal esférica adaptativa. Además, para mitigar el desequilibrio de optimización causado por las distintas complejidades de las tareas y escalas de datos, desarrollamos una estrategia de Muestreo Adaptativo Guiado por Gradientes que re-pondera automáticamente las tareas según la dificultad de aprendizaje en tiempo real y la prioridad de la escala de datos. Los experimentos en U-FIRE muestran que FashionLens logra un rendimiento de vanguardia en diversos escenarios de recuperación y se generaliza de manera robusta a tareas no vistas. Los datos y el código se publican públicamente en https://github.com/haokunwen/FashionLens.

English

Fashion image retrieval is a cornerstone of modern e-commerce systems. A unified framework that supports diverse query formats and search intentions is highly desired in practice. However, existing approaches focus on narrow retrieval tasks and do not fully capture such diversity. Therefore, in this work, we aim to develop a unified framework capable of handling diverse realistic fashion retrieval scenarios, achieving truly versatile fashion image retrieval. To establish a data foundation, we first introduce U-FIRE, a comprehensive benchmark that consolidates fragmented fashion datasets into a unified collection, supplemented by two manually curated datasets for testing generalization. Building upon this, we propose FashionLens, a unified framework based on Multimodal Large Language Models. To handle divergent matching objectives, we design a Proposal-Guided Spherical Query Calibrator that dynamically shifts query representations into task-aligned metric spaces via adaptive spherical linear interpolation. Additionally, to mitigate the optimization imbalance caused by varying task complexities and data scales, we develop a Gradient-Guided Adaptive Sampling strategy that automatically re-weights tasks based on realtime learning difficulty and the data scale prior. Experiments on U-FIRE show that FashionLens achieves state-of-the-art performance across diverse retrieval scenarios and generalizes robustly to unseen tasks. The data and code are publicly released at https://github.com/haokunwen/FashionLens.