FashionLens : Vers une recherche polyvalente d'images de mode via apprentissage adaptatif aux tâches

Résumé

La recherche d'images de mode est un pilier des systèmes de commerce électronique modernes. Un cadre unifié capable de prendre en charge divers formats de requêtes et intentions de recherche est fortement souhaité en pratique. Cependant, les approches existantes se concentrent sur des tâches de recherche étroites et ne capturent pas pleinement cette diversité. Ainsi, dans ce travail, nous visons à développer un cadre unifié capable de gérer divers scénarios réalistes de recherche de mode, réalisant une véritable recherche d'images de mode polyvalente. Pour établir une base de données, nous introduisons d'abord U-FIRE, un benchmark complet qui consolide des ensembles de données de mode fragmentés en une collection unifiée, complétée par deux ensembles de données annotés manuellement pour tester la généralisation. Sur cette base, nous proposons FashionLens, un cadre unifié basé sur des modèles de langage multimodaux à grande échelle. Pour gérer des objectifs de correspondance divergents, nous concevons un Calibrateur de Requêtes Sphériques Guidé par Propositions qui déplace dynamiquement les représentations des requêtes dans des espaces métriques alignés sur les tâches via une interpolation linéaire sphérique adaptative. De plus, pour atténuer le déséquilibre d'optimisation causé par des complexités de tâches et des échelles de données variables, nous développons une stratégie d'Échantillonnage Adaptatif Guidé par Gradient qui repondère automatiquement les tâches en fonction de la difficulté d'apprentissage en temps réel et de l'échelle de données priori. Les expériences sur U-FIRE montrent que FashionLens atteint des performances de pointe dans divers scénarios de recherche et se généralise de manière robuste à des tâches inédites. Les données et le code sont publiés publiquement à l'adresse https://github.com/haokunwen/FashionLens.

English

Fashion image retrieval is a cornerstone of modern e-commerce systems. A unified framework that supports diverse query formats and search intentions is highly desired in practice. However, existing approaches focus on narrow retrieval tasks and do not fully capture such diversity. Therefore, in this work, we aim to develop a unified framework capable of handling diverse realistic fashion retrieval scenarios, achieving truly versatile fashion image retrieval. To establish a data foundation, we first introduce U-FIRE, a comprehensive benchmark that consolidates fragmented fashion datasets into a unified collection, supplemented by two manually curated datasets for testing generalization. Building upon this, we propose FashionLens, a unified framework based on Multimodal Large Language Models. To handle divergent matching objectives, we design a Proposal-Guided Spherical Query Calibrator that dynamically shifts query representations into task-aligned metric spaces via adaptive spherical linear interpolation. Additionally, to mitigate the optimization imbalance caused by varying task complexities and data scales, we develop a Gradient-Guided Adaptive Sampling strategy that automatically re-weights tasks based on realtime learning difficulty and the data scale prior. Experiments on U-FIRE show that FashionLens achieves state-of-the-art performance across diverse retrieval scenarios and generalizes robustly to unseen tasks. The data and code are publicly released at https://github.com/haokunwen/FashionLens.