ChatPaper.aiChatPaper

XR : Agents multimodaux pour la recherche d'images composées

XR: Cross-Modal Agents for Composed Image Retrieval

January 20, 2026
papers.authors: Zhongyu Yang, Wei Pang, Yingfang Yuan
cs.AI

papers.abstract

La récupération d'information est en train d'être redéfinie par l'IA agentique, exigeant un raisonnement multimodal qui dépasse les paradigmes conventionnels basés sur la similarité. La Recherche d'Image Composée (CIR) illustre cette évolution, car chaque requête combine une image de référence avec des modifications textuelles, nécessitant une compréhension compositionnelle à travers les modalités. Bien que les méthodes de CIR basées sur les embeddings aient réalisé des progrès, elles restent limitées en perspective, capturant des indices multimodaux restreints et manquant de raisonnement sémantique. Pour résoudre ces limitations, nous présentons XR, un cadre multi-agent sans entraînement qui reformule la récupération comme un processus de raisonnement progressivement coordonné. Il orchestre trois types spécialisés d'agents : les agents d'imagination synthétisent les représentations cibles par génération multimodale, les agents de similarité effectuent un filtrage grossier via un appariement hybride, et les agents de question vérifient la cohérence factuelle par un raisonnement ciblé pour un filtrage fin. Grâce à une coordination multi-agent progressive, XR affine itérativement la récupération pour satisfaire à la fois les contraintes sémantiques et visuelles des requêtes, obtenant un gain allant jusqu'à 38% par rapport aux bases de référence fortes sans et avec entraînement sur FashionIQ, CIRR et CIRCO, tandis que les ablations montrent que chaque agent est essentiel. Le code est disponible : https://01yzzyu.github.io/xr.github.io/.
English
Retrieval is being redefined by agentic AI, demanding multimodal reasoning beyond conventional similarity-based paradigms. Composed Image Retrieval (CIR) exemplifies this shift as each query combines a reference image with textual modifications, requiring compositional understanding across modalities. While embedding-based CIR methods have achieved progress, they remain narrow in perspective, capturing limited cross-modal cues and lacking semantic reasoning. To address these limitations, we introduce XR, a training-free multi-agent framework that reframes retrieval as a progressively coordinated reasoning process. It orchestrates three specialized types of agents: imagination agents synthesize target representations through cross-modal generation, similarity agents perform coarse filtering via hybrid matching, and question agents verify factual consistency through targeted reasoning for fine filtering. Through progressive multi-agent coordination, XR iteratively refines retrieval to meet both semantic and visual query constraints, achieving up to a 38% gain over strong training-free and training-based baselines on FashionIQ, CIRR, and CIRCO, while ablations show each agent is essential. Code is available: https://01yzzyu.github.io/xr.github.io/.
PDF71January 23, 2026