FashionLens: К универсальному поиску изображений моды посредством адаптивного к задачам обучения

Аннотация

Поиск изображений одежды является краеугольным камнем современных систем электронной коммерции. На практике существует высокая потребность в единой структуре, поддерживающей различные форматы запросов и поисковые намерения. Однако существующие подходы сосредоточены на узких задачах поиска и не в полной мере учитывают такое разнообразие. Поэтому в данной работе мы стремимся разработать унифицированную структуру, способную обрабатывать разнообразные реалистичные сценарии поиска одежды, достигая по-настоящему универсального поиска изображений одежды. Для создания фундаментальной основы данных мы сначала представляем U-FIRE — комплексный бенчмарк, объединяющий фрагментированные наборы данных одежды в единую коллекцию, дополненную двумя вручную подобранными наборами данных для тестирования обобщающей способности. Основываясь на этом, мы предлагаем FashionLens — унифицированную структуру на основе мультимодальных больших языковых моделей. Для обработки расходящихся целей сопоставления мы разрабатываем Калибратор сферических запросов с направляющими предложениями (Proposal-Guided Spherical Query Calibrator), который динамически смещает представления запросов в метрические пространства, согласованные с задачей, с помощью адаптивной сферической линейной интерполяции. Кроме того, чтобы смягчить дисбаланс оптимизации, вызванный различной сложностью задач и масштабами данных, мы разрабатываем стратегию градиентно-направленной адаптивной выборки (Gradient-Guided Adaptive Sampling), которая автоматически перераспределяет веса задач на основе сложности обучения в реальном времени и априорной информации о масштабе данных. Эксперименты на U-FIRE показывают, что FashionLens достигает самых современных результатов в различных сценариях поиска и обладает надежной обобщающей способностью для ранее не встречавшихся задач. Данные и код опубликованы в открытом доступе по адресу https://github.com/haokunwen/FashionLens.

English

Fashion image retrieval is a cornerstone of modern e-commerce systems. A unified framework that supports diverse query formats and search intentions is highly desired in practice. However, existing approaches focus on narrow retrieval tasks and do not fully capture such diversity. Therefore, in this work, we aim to develop a unified framework capable of handling diverse realistic fashion retrieval scenarios, achieving truly versatile fashion image retrieval. To establish a data foundation, we first introduce U-FIRE, a comprehensive benchmark that consolidates fragmented fashion datasets into a unified collection, supplemented by two manually curated datasets for testing generalization. Building upon this, we propose FashionLens, a unified framework based on Multimodal Large Language Models. To handle divergent matching objectives, we design a Proposal-Guided Spherical Query Calibrator that dynamically shifts query representations into task-aligned metric spaces via adaptive spherical linear interpolation. Additionally, to mitigate the optimization imbalance caused by varying task complexities and data scales, we develop a Gradient-Guided Adaptive Sampling strategy that automatically re-weights tasks based on realtime learning difficulty and the data scale prior. Experiments on U-FIRE show that FashionLens achieves state-of-the-art performance across diverse retrieval scenarios and generalizes robustly to unseen tasks. The data and code are publicly released at https://github.com/haokunwen/FashionLens.