PhotoBench: Voorbij Visuele Vergelijking naar Persoonlijke, Intentiegedreven Fotoretrieval
PhotoBench: Beyond Visual Matching Towards Personalized Intent-Driven Photo Retrieval
March 2, 2026
Auteurs: Tianyi Xu, Rong Shan, Junjie Wu, Jiadeng Huang, Teng Wang, Jiachen Zhu, Wenteng Chen, Minxin Tu, Quantao Dou, Zhaoxiang Wang, Changwang Zhang, Weinan Zhang, Jun Wang, Jianghao Lin
cs.AI
Samenvatting
Persoonlijke fotoalbums zijn niet louter verzamelingen statische beelden, maar levende, ecologische archieven gedefinieerd door temporele continuïteit, sociale verwevenheid en rijke metadata, wat gepersonaliseerde fotoretrieval geen triviale opgave maakt. Bestaande retrievalbenchmarks vertrouwen echter sterk op contextgeïsoleerde websnapshots, waardoor ze niet in staat zijn het multi-source redeneren te vatten dat nodig is om authentieke, intentiegedreven gebruikersvragen op te lossen. Om deze kloof te overbruggen, introduceren wij PhotoBench, de eerste benchmark die is opgebouwd uit authentieke, persoonlijke albums. Deze is ontworpen om het paradigma te verschuiven van visuele matching naar gepersonaliseerd, intentiegedreven redeneren met meerdere bronnen. Gebaseerd op een rigoureuz multi-source profileringkader, dat visuele semantiek, ruimtelijk-temporele metadata, sociale identiteit en temporele gebeurtenissen voor elke afbeelding integreert, synthetiseren we complexe intentiegedreven vragen geworteld in gebruikerslevenslopen. Uitgebreide evaluatie op PhotoBench legt twee kritieke beperkingen bloot: de modaliteitskloof, waarbij unified embedding-modellen falen bij niet-visuele beperkingen, en de source fusion-paradox, waarbij agent-systemen slecht presteren in tool-orchestratie. Deze bevindingen indiceren dat de volgende grens in persoonlijke multimodale retrieval voorbij unified embeddings ligt, en robuuste agent-redeneersystemen vereist die in staat zijn tot precieze constraint-satisfactie en multi-source fusie. Onze PhotoBench is beschikbaar.
English
Personal photo albums are not merely collections of static images but living, ecological archives defined by temporal continuity, social entanglement, and rich metadata, which makes the personalized photo retrieval non-trivial. However, existing retrieval benchmarks rely heavily on context-isolated web snapshots, failing to capture the multi-source reasoning required to resolve authentic, intent-driven user queries. To bridge this gap, we introduce PhotoBench, the first benchmark constructed from authentic, personal albums. It is designed to shift the paradigm from visual matching to personalized multi-source intent-driven reasoning. Based on a rigorous multi-source profiling framework, which integrates visual semantics, spatial-temporal metadata, social identity, and temporal events for each image, we synthesize complex intent-driven queries rooted in users' life trajectories. Extensive evaluation on PhotoBench exposes two critical limitations: the modality gap, where unified embedding models collapse on non-visual constraints, and the source fusion paradox, where agentic systems perform poor tool orchestration. These findings indicate that the next frontier in personal multimodal retrieval lies beyond unified embeddings, necessitating robust agentic reasoning systems capable of precise constraint satisfaction and multi-source fusion. Our PhotoBench is available.