FashionLens:タスク適応学習による多用途ファッション画像検索の実現に向けて
FashionLens: Toward Versatile Fashion Image Retrieval via Task-Adaptive Learning
May 21, 2026
著者: Haokun Wen, Xuemeng Song, Xinghao Xie, Xiaolin Chen, Xiangyu Zhao, Weili Guan
cs.AI
要旨
ファッション画像検索は、現代のeコマースシステムの基盤である。多様なクエリ形式や検索意図に対応可能な統一フレームワークが実務上強く求められている。しかしながら、既存手法は限定的な検索タスクに焦点を当てており、このような多様性を十分に捉えていない。そこで本研究では、多様な現実的なファッション検索シナリオを処理可能な統一フレームワークを開発し、真に汎用的なファッション画像検索を実現することを目指す。データ基盤を構築するため、まず断片的なファッションデータセットを統合した包括的なベンチマークU-FIREを導入する。これに加えて、汎化性能テスト用に手動で厳選した2つのデータセットを提供する。これに基づき、マルチモーダル大規模言語モデルに基づく統一フレームワークFashionLensを提案する。多様なマッチング目的に対処するため、適応的球面線形補間によりクエリ表現をタスクに整合した計量空間へ動的に変換する提案誘導型球面クエリキャリブレータを設計する。さらに、タスクの複雑さやデータ規模の違いによる最適化の不均衡を緩和するため、リアルタイムの学習困難度とデータ規模の事前情報に基づいてタスクを自動的に再重み付けする勾配誘導型適応サンプリング戦略を開発する。U-FIREでの実験により、FashionLensは多様な検索シナリオにおいて最先端の性能を達成し、未見のタスクに対しても頑健に汎化することが示された。データとコードはhttps://github.com/haokunwen/FashionLensで公開されている。
English
Fashion image retrieval is a cornerstone of modern e-commerce systems. A unified framework that supports diverse query formats and search intentions is highly desired in practice. However, existing approaches focus on narrow retrieval tasks and do not fully capture such diversity. Therefore, in this work, we aim to develop a unified framework capable of handling diverse realistic fashion retrieval scenarios, achieving truly versatile fashion image retrieval. To establish a data foundation, we first introduce U-FIRE, a comprehensive benchmark that consolidates fragmented fashion datasets into a unified collection, supplemented by two manually curated datasets for testing generalization. Building upon this, we propose FashionLens, a unified framework based on Multimodal Large Language Models. To handle divergent matching objectives, we design a Proposal-Guided Spherical Query Calibrator that dynamically shifts query representations into task-aligned metric spaces via adaptive spherical linear interpolation. Additionally, to mitigate the optimization imbalance caused by varying task complexities and data scales, we develop a Gradient-Guided Adaptive Sampling strategy that automatically re-weights tasks based on realtime learning difficulty and the data scale prior. Experiments on U-FIRE show that FashionLens achieves state-of-the-art performance across diverse retrieval scenarios and generalizes robustly to unseen tasks. The data and code are publicly released at https://github.com/haokunwen/FashionLens.