XR: 合成画像検索のためのクロスモーダルエージェント
XR: Cross-Modal Agents for Composed Image Retrieval
January 20, 2026
著者: Zhongyu Yang, Wei Pang, Yingfang Yuan
cs.AI
要旨
検索技術は、エージェント型AIによって再定義が進んでおり、従来の類似性ベースのパラダイムを超えたマルチモーダル推論が求められています。Composed Image Retrieval(CIR)はこの変遷を象徴するもので、各クエリが参照画像とテキストによる修正を組み合わせるため、モダリティを跨いだ構成的な理解を必要とします。埋め込みベースのCIR手法は進展を見せているものの、視点が狭く、限定的なクロスモーダル手がかりしか捉えられず、意味論的推論を欠いています。これらの限界に対処するため、我々はXRを提案します。これは学習不要なマルチエージェントフレームワークであり、検索を段階的に協調する推論プロセスとして再構築します。XRは3種類の専門エージェントを協調させます:想像エージェントはクロスモーダル生成により目標表現を合成し、類似性エージェントはハイブリッドマッチングによる粗い選別を実行し、質問エージェントは詳細な選別のための指向性推論により事実的一貫性を検証します。段階的なマルチエージェント協調を通じて、XRは意味的および視覚的クエリ制約の両方を満たすよう検索結果を反復的に洗練させ、FashionIQ、CIRR、CIRCOデータセットにおいて、強力な学習不要及び学習ベースのベースラインを最大38%上回る性能向上を達成し、アブレーション研究では各エージェントの必要性が示されました。コードは以下で公開されています:https://01yzzyu.github.io/xr.github.io/
English
Retrieval is being redefined by agentic AI, demanding multimodal reasoning beyond conventional similarity-based paradigms. Composed Image Retrieval (CIR) exemplifies this shift as each query combines a reference image with textual modifications, requiring compositional understanding across modalities. While embedding-based CIR methods have achieved progress, they remain narrow in perspective, capturing limited cross-modal cues and lacking semantic reasoning. To address these limitations, we introduce XR, a training-free multi-agent framework that reframes retrieval as a progressively coordinated reasoning process. It orchestrates three specialized types of agents: imagination agents synthesize target representations through cross-modal generation, similarity agents perform coarse filtering via hybrid matching, and question agents verify factual consistency through targeted reasoning for fine filtering. Through progressive multi-agent coordination, XR iteratively refines retrieval to meet both semantic and visual query constraints, achieving up to a 38% gain over strong training-free and training-based baselines on FashionIQ, CIRR, and CIRCO, while ablations show each agent is essential. Code is available: https://01yzzyu.github.io/xr.github.io/.