PhotoBench:視覚的マッチングを超えた個人化意図駆動型写真検索
PhotoBench: Beyond Visual Matching Towards Personalized Intent-Driven Photo Retrieval
March 2, 2026
著者: Tianyi Xu, Rong Shan, Junjie Wu, Jiadeng Huang, Teng Wang, Jiachen Zhu, Wenteng Chen, Minxin Tu, Quantao Dou, Zhaoxiang Wang, Changwang Zhang, Weinan Zhang, Jun Wang, Jianghao Lin
cs.AI
要旨
個人写真アルバムは、単なる静的な画像の集合ではなく、時間的連続性、社会的なつながり、豊富なメタデータによって定義される、生態的なアーカイブである。このため、個人化された写真検索は容易ではない。しかし、既存の検索ベンチマークは、文脈から切り離されたウェブスナップショットに大きく依存しており、実際の意図駆動型ユーザークエリを解決するために必要なマルチソース推論を捉えられていない。このギャップを埋めるため、我々は実際の個人アルバムから構築された初のベンチマークであるPhotoBenchを提案する。これは、視覚的マッチングから、個人化されたマルチソース意図駆動型推論へとパラダイムを転換することを目的としている。各画像に対して視覚的意味、時空間メタデータ、社会的アイデンティティ、時間的イベントを統合する厳密なマルチソースプロファイリングフレームワークに基づき、ユーザーの人生の軌跡に根ざした複雑な意図駆動型クエリを合成する。PhotoBenchを用いた広範な評価により、二つの重大な限界が明らかになった。一つは、統一埋め込みモデルが非視覚的制約に対して破綻する「モダリティギャップ」、もう一つは、エージェントシステムがツールオーケストレーションを適切に行えない「ソース融合のパラドックス」である。これらの発見は、個人マルチモーダル検索の次のフロンティアが統一埋め込みを超えたところにあり、正確な制約充足とマルチソース融合が可能な堅牢なエージェント推論システムが必要であることを示唆している。我々のPhotoBenchは公開されている。
English
Personal photo albums are not merely collections of static images but living, ecological archives defined by temporal continuity, social entanglement, and rich metadata, which makes the personalized photo retrieval non-trivial. However, existing retrieval benchmarks rely heavily on context-isolated web snapshots, failing to capture the multi-source reasoning required to resolve authentic, intent-driven user queries. To bridge this gap, we introduce PhotoBench, the first benchmark constructed from authentic, personal albums. It is designed to shift the paradigm from visual matching to personalized multi-source intent-driven reasoning. Based on a rigorous multi-source profiling framework, which integrates visual semantics, spatial-temporal metadata, social identity, and temporal events for each image, we synthesize complex intent-driven queries rooted in users' life trajectories. Extensive evaluation on PhotoBench exposes two critical limitations: the modality gap, where unified embedding models collapse on non-visual constraints, and the source fusion paradox, where agentic systems perform poor tool orchestration. These findings indicate that the next frontier in personal multimodal retrieval lies beyond unified embeddings, necessitating robust agentic reasoning systems capable of precise constraint satisfaction and multi-source fusion. Our PhotoBench is available.