PhotoBench: Über visuelle Ähnlichkeit hinaus – hin zur personalisierten, intentionsgesteuerten Fotosuche
PhotoBench: Beyond Visual Matching Towards Personalized Intent-Driven Photo Retrieval
March 2, 2026
Autoren: Tianyi Xu, Rong Shan, Junjie Wu, Jiadeng Huang, Teng Wang, Jiachen Zhu, Wenteng Chen, Minxin Tu, Quantao Dou, Zhaoxiang Wang, Changwang Zhang, Weinan Zhang, Jun Wang, Jianghao Lin
cs.AI
Zusammenfassung
Persönliche Fotoalben sind nicht bloß Sammlungen statischer Bilder, sondern lebendige, ökologische Archive, die durch zeitliche Kontinuität, soziale Verflechtungen und umfangreiche Metadaten definiert werden. Dies macht die personalisierte Fotorecherche zu einer anspruchsvollen Aufgabe. Bisherige Retrieval-Benchmarks stützen sich jedoch stark auf kontextisolierte Web-Schnappschüsse und erfassen nicht die multi-source Reasoning-Fähigkeiten, die zur Beantwortung authentischer, intentionsgetriebener Nutzeranfragen nötig sind. Um diese Lücke zu schließen, führen wir PhotoBench ein, den ersten Benchmark, der auf echten persönlichen Alben basiert. Er wurde entwickelt, um das Paradigma von visuellem Matching hin zu personalisiertem, multi-source, intentionsgesteuertem Reasoning zu verschieben. Basierend auf einem rigorosen Multi-Source-Profiling-Framework, das visuelle Semantik, raum-zeitliche Metadaten, soziale Identität und zeitliche Ereignisse für jedes Bild integriert, synthetisieren wir komplexe, intentionsgetriebene Anfragen, die in den Lebensverläufen der Nutzer verwurzelt sind. Eine umfangreiche Auswertung mit PhotoBench deckt zwei kritische Schwachstellen auf: die Modalitätslücke, bei der vereinheitlichte Embedding-Modelle bei nicht-visuellen Constraints versagen, und das Quellen-Fusions-Paradoxon, bei dem agentenbasierte Systeme Schwächen in der Werkzeugorchestrierung zeigen. Diese Erkenntnisse deuten darauf hin, dass die nächste Herausforderung im personalisierten multimodalen Retrieval jenseits vereinheitlichter Embeddings liegt und robuste agentenbasierte Reasoning-Systeme erfordert, die in der Lage sind, Constraints präzise zu erfüllen und Multi-Source-Informationen zu fusionieren. Unser PhotoBench ist verfügbar.
English
Personal photo albums are not merely collections of static images but living, ecological archives defined by temporal continuity, social entanglement, and rich metadata, which makes the personalized photo retrieval non-trivial. However, existing retrieval benchmarks rely heavily on context-isolated web snapshots, failing to capture the multi-source reasoning required to resolve authentic, intent-driven user queries. To bridge this gap, we introduce PhotoBench, the first benchmark constructed from authentic, personal albums. It is designed to shift the paradigm from visual matching to personalized multi-source intent-driven reasoning. Based on a rigorous multi-source profiling framework, which integrates visual semantics, spatial-temporal metadata, social identity, and temporal events for each image, we synthesize complex intent-driven queries rooted in users' life trajectories. Extensive evaluation on PhotoBench exposes two critical limitations: the modality gap, where unified embedding models collapse on non-visual constraints, and the source fusion paradox, where agentic systems perform poor tool orchestration. These findings indicate that the next frontier in personal multimodal retrieval lies beyond unified embeddings, necessitating robust agentic reasoning systems capable of precise constraint satisfaction and multi-source fusion. Our PhotoBench is available.