XR: Cross-modale Agents voor Samengestelde Beeldretrieval
XR: Cross-Modal Agents for Composed Image Retrieval
January 20, 2026
Auteurs: Zhongyu Yang, Wei Pang, Yingfang Yuan
cs.AI
Samenvatting
Retrieval wordt herdefinieerd door agent-gebaseerde AI, wat multimodaal redeneren vereist dat verder gaat dan conventionele op gelijkenis gebaseerde paradigma's. Composed Image Retrieval (CIR) belichaamt deze verschuiving, waarbij elke zoekopdracht een referentiebeeld combineert met tekstuele aanpassingen, wat compositioneel begrip tussen modaliteiten vereist. Hoewel op embedding gebaseerde CIR-methoden vooruitgang hebben geboekt, blijven ze beperkt in perspectief, vangen ze beperkte cross-modale signalen op en ontbreekt het hen aan semantisch redeneren. Om deze beperkingen aan te pakken, introduceren we XR, een trainingsvrij multi-agent raamwerk dat retrieval herformuleert als een progressief gecoördineerd redeneerproces. Het coördineert drie gespecialiseerde soorten agents: *imagination agents* synthetiseren doelrepresentaties via cross-modale generatie, *similarity agents* voeren grove filtering uit via hybride matching, en *question agents* verifiëren feitelijke consistentie via gericht redeneren voor fijne filtering. Door progressieve multi-agent coördinatie verfijnt XR retrieval iteratief om aan zowel semantische als visuele zoekrestricties te voldoen, wat een verbetering tot 38% oplevert ten opzichte van sterke trainingsvrije en op training gebaseerde baseline-methoden op FashionIQ, CIRR en CIRCO, terwijl ablatiestudies aantonen dat elke agent essentieel is. Code is beschikbaar: https://01yzzyu.github.io/xr.github.io/.
English
Retrieval is being redefined by agentic AI, demanding multimodal reasoning beyond conventional similarity-based paradigms. Composed Image Retrieval (CIR) exemplifies this shift as each query combines a reference image with textual modifications, requiring compositional understanding across modalities. While embedding-based CIR methods have achieved progress, they remain narrow in perspective, capturing limited cross-modal cues and lacking semantic reasoning. To address these limitations, we introduce XR, a training-free multi-agent framework that reframes retrieval as a progressively coordinated reasoning process. It orchestrates three specialized types of agents: imagination agents synthesize target representations through cross-modal generation, similarity agents perform coarse filtering via hybrid matching, and question agents verify factual consistency through targeted reasoning for fine filtering. Through progressive multi-agent coordination, XR iteratively refines retrieval to meet both semantic and visual query constraints, achieving up to a 38% gain over strong training-free and training-based baselines on FashionIQ, CIRR, and CIRCO, while ablations show each agent is essential. Code is available: https://01yzzyu.github.io/xr.github.io/.