ChatPaper.aiChatPaper

PhotoBench: 시각적 매칭을 넘어 맞춤형 의도 기반 사진 검색으로

PhotoBench: Beyond Visual Matching Towards Personalized Intent-Driven Photo Retrieval

March 2, 2026
저자: Tianyi Xu, Rong Shan, Junjie Wu, Jiadeng Huang, Teng Wang, Jiachen Zhu, Wenteng Chen, Minxin Tu, Quantao Dou, Zhaoxiang Wang, Changwang Zhang, Weinan Zhang, Jun Wang, Jianghao Lin
cs.AI

초록

개인 사진 앨범은 단순히 정적인 이미지의 모음이 아니라 시간적 연속성, 사회적 연결성, 풍부한 메타데이터로 정의되는 살아있는 생태학적 기록으로, 이로 인해 개인화된 사진 검색은 사소한 작업이 아닙니다. 그러나 기존 검색 벤치마크는 맥락이 고립된 웹 스냅샷에 크게 의존하여, 진정한 사용자 의도 기반 질의를 해결하는 데 필요한 다중 소스 추론을 포착하지 못하고 있습니다. 이러한 격차를 해소하기 위해 우리는 진정한 개인 앨범으로부터 구축된 최초의 벤치마크인 PhotoBench를 소개합니다. 이는 시각적 매칭에서 개인화된 다중 소스 의도 기반 추론으로의 패러다임 전환을 목적으로 설계되었습니다. 각 이미지에 대한 시각적 의미, 시공간 메타데이터, 사회적 정체성, 시간적 사건을 통합하는 엄격한 다중 소스 프로파일링 프레임워크를 기반으로, 사용자의 삶의 궤적에 뿌리둔 복잡한 의도 기반 질의를 합성합니다. PhotoBench에 대한 광범위한 평가는 두 가지 중요한 한계를 드러냈습니다: 통합 임베딩 모델이 비시각적 제약 조건에서 실패하는 양식 간 격차(Modality Gap), 그리고 에이전트 시스템이 도구 조율을 제대로 수행하지 못하는 소스 융합 역설(Source Fusion Paradox)입니다. 이러한 발견은 개인 멀티모달 검색의 다음 전선이 통합 임베딩을 넘어, 정확한 제약 조건 충족과 다중 소스 융합이 가능한 강력한 에이전트 추론 시스템의 필요성을 시사합니다. 우리의 PhotoBench는 공개되어 있습니다.
English
Personal photo albums are not merely collections of static images but living, ecological archives defined by temporal continuity, social entanglement, and rich metadata, which makes the personalized photo retrieval non-trivial. However, existing retrieval benchmarks rely heavily on context-isolated web snapshots, failing to capture the multi-source reasoning required to resolve authentic, intent-driven user queries. To bridge this gap, we introduce PhotoBench, the first benchmark constructed from authentic, personal albums. It is designed to shift the paradigm from visual matching to personalized multi-source intent-driven reasoning. Based on a rigorous multi-source profiling framework, which integrates visual semantics, spatial-temporal metadata, social identity, and temporal events for each image, we synthesize complex intent-driven queries rooted in users' life trajectories. Extensive evaluation on PhotoBench exposes two critical limitations: the modality gap, where unified embedding models collapse on non-visual constraints, and the source fusion paradox, where agentic systems perform poor tool orchestration. These findings indicate that the next frontier in personal multimodal retrieval lies beyond unified embeddings, necessitating robust agentic reasoning systems capable of precise constraint satisfaction and multi-source fusion. Our PhotoBench is available.
PDF182March 4, 2026