FashionLens: Rumo à Recuperação Versátil de Imagens de Moda via Aprendizado Adaptativo a Tarefas

Resumo

A recuperação de imagens de moda é um pilar dos sistemas modernos de comércio eletrónico. Na prática, é altamente desejável um quadro unificado que suporte diversos formatos de consulta e intenções de pesquisa. No entanto, as abordagens existentes focam-se em tarefas de recuperação restritas e não capturam plenamente essa diversidade. Por isso, neste trabalho, visamos desenvolver um quadro unificado capaz de lidar com diversos cenários realistas de recuperação de moda, alcançando uma recuperação de imagens de moda verdadeiramente versátil. Para estabelecer uma base de dados, introduzimos primeiro o U-FIRE, um benchmark abrangente que consolida conjuntos de dados fragmentados de moda numa coleção unificada, complementada por dois conjuntos de dados curados manualmente para testar a generalização. Com base nisso, propomos o FashionLens, um quadro unificado baseado em Grandes Modelos de Linguagem Multimodais. Para lidar com objetivos de correspondência divergentes, concebemos um Calibrador de Consultas Esféricas Guiado por Propostas que desloca dinamicamente as representações das consultas para espaços métricos alinhados às tarefas através de interpolação linear esférica adaptativa. Além disso, para mitigar o desequilíbrio de otimização causado por diferentes complexidades de tarefas e escalas de dados, desenvolvemos uma estratégia de Amostragem Adaptativa Guiada por Gradiente que repondera automaticamente as tarefas com base na dificuldade de aprendizagem em tempo real e no prior da escala de dados. As experiências no U-FIRE mostram que o FashionLens alcança desempenho de ponta em diversos cenários de recuperação e generaliza de forma robusta para tarefas não vistas. Os dados e o código são disponibilizados publicamente em https://github.com/haokunwen/FashionLens.

English

Fashion image retrieval is a cornerstone of modern e-commerce systems. A unified framework that supports diverse query formats and search intentions is highly desired in practice. However, existing approaches focus on narrow retrieval tasks and do not fully capture such diversity. Therefore, in this work, we aim to develop a unified framework capable of handling diverse realistic fashion retrieval scenarios, achieving truly versatile fashion image retrieval. To establish a data foundation, we first introduce U-FIRE, a comprehensive benchmark that consolidates fragmented fashion datasets into a unified collection, supplemented by two manually curated datasets for testing generalization. Building upon this, we propose FashionLens, a unified framework based on Multimodal Large Language Models. To handle divergent matching objectives, we design a Proposal-Guided Spherical Query Calibrator that dynamically shifts query representations into task-aligned metric spaces via adaptive spherical linear interpolation. Additionally, to mitigate the optimization imbalance caused by varying task complexities and data scales, we develop a Gradient-Guided Adaptive Sampling strategy that automatically re-weights tasks based on realtime learning difficulty and the data scale prior. Experiments on U-FIRE show that FashionLens achieves state-of-the-art performance across diverse retrieval scenarios and generalizes robustly to unseen tasks. The data and code are publicly released at https://github.com/haokunwen/FashionLens.