ChatPaper.aiChatPaper

XR: 구성된 이미지 검색을 위한 크로스 모달 에이전트

XR: Cross-Modal Agents for Composed Image Retrieval

January 20, 2026
저자: Zhongyu Yang, Wei Pang, Yingfang Yuan
cs.AI

초록

정보 검색은 에이전트 기반 AI에 의해 재정의되며, 기존의 유사성 기반 패러다임을 넘어선 다중모달 추론을 요구하고 있습니다. 구성적 이미지 검색(CIR)은 각 쿼리가 참조 이미지와 텍스트 수정을 결합하여 다중 모달리티에 걸친 구성적 이해를 필요로 함으로써 이러한 전환을 대표합니다. 임베딩 기반 CIR 방법이 발전을 이루었지만, 여전히 시각이 제한적이며 제한된 교차 모달 단서만 포착하고 의미론적 추론이 부족합니다. 이러한 한계를 해결하기 위해 우리는 검색을 점진적으로 조정되는 추론 과정으로 재구성하는 학습 불필요 다중 에이전트 프레임워크인 XR을 소개합니다. XR은 세 가지 전문 에이전트 유형을 조정합니다: 상상 에이전트는 교차 모달 생성으로 목표 표현을 합성하고, 유사성 에이전트는 하이브리드 매칭을 통해 초기 필터링을 수행하며, 질문 에이전트는 표적 추론을 통해 사실 일관성을 검증하여 정교한 필터링을 수행합니다. 점진적 다중 에이전트 조정을 통해 XR은 의미론적 및 시각적 쿼리 제약을 모두 충족하도록 검색을 반복적으로 정제하며, FashionIQ, CIRR, CIRCO 데이터셋에서 강력한 학습 불필요 및 학습 기반 기준선 대비 최대 38% 성능 향상을 달성했으며, 애블레이션 연구를 통해 각 에이전트의 필수성을 입증했습니다. 코드 이용 가능: https://01yzzyu.github.io/xr.github.io/.
English
Retrieval is being redefined by agentic AI, demanding multimodal reasoning beyond conventional similarity-based paradigms. Composed Image Retrieval (CIR) exemplifies this shift as each query combines a reference image with textual modifications, requiring compositional understanding across modalities. While embedding-based CIR methods have achieved progress, they remain narrow in perspective, capturing limited cross-modal cues and lacking semantic reasoning. To address these limitations, we introduce XR, a training-free multi-agent framework that reframes retrieval as a progressively coordinated reasoning process. It orchestrates three specialized types of agents: imagination agents synthesize target representations through cross-modal generation, similarity agents perform coarse filtering via hybrid matching, and question agents verify factual consistency through targeted reasoning for fine filtering. Through progressive multi-agent coordination, XR iteratively refines retrieval to meet both semantic and visual query constraints, achieving up to a 38% gain over strong training-free and training-based baselines on FashionIQ, CIRR, and CIRCO, while ablations show each agent is essential. Code is available: https://01yzzyu.github.io/xr.github.io/.
PDF71January 23, 2026