PhotoBench : Au-delà de l'appariement visuel vers une recherche de photos personnalisée guidée par l'intention
PhotoBench: Beyond Visual Matching Towards Personalized Intent-Driven Photo Retrieval
March 2, 2026
Auteurs: Tianyi Xu, Rong Shan, Junjie Wu, Jiadeng Huang, Teng Wang, Jiachen Zhu, Wenteng Chen, Minxin Tu, Quantao Dou, Zhaoxiang Wang, Changwang Zhang, Weinan Zhang, Jun Wang, Jianghao Lin
cs.AI
Résumé
Les albums photos personnels ne sont pas de simples collections d'images statiques, mais des archives écologiques vivantes, définies par une continuité temporelle, des intrications sociales et des métadonnées riches, ce qui rend la recherche photo personnalisée non triviale. Cependant, les benchmarks de recherche existants reposent largement sur des instantanés web isolés de leur contexte, échouant à capturer le raisonnement multi-source nécessaire pour résoudre des requêtes utilisateur authentiques et guidées par l'intention. Pour combler cette lacune, nous présentons PhotoBench, le premier benchmark construit à partir d'albums personnels authentiques. Il est conçu pour faire évoluer le paradigme de la correspondance visuelle vers un raisonnement personnalisé, multi-source et guidé par l'intention. En nous appuyant sur un cadre rigoureux de profilage multi-source, qui intègre la sémantique visuelle, les métadonnées spatio-temporelles, l'identité sociale et les événements temporels pour chaque image, nous synthétisons des requêtes complexes guidées par l'intention, ancrées dans les trajectoires de vie des utilisateurs. Une évaluation approfondie sur PhotoBench révèle deux limitations critiques : l'écart de modalité, où les modèles d'embedding unifiés échouent face à des contraintes non visuelles, et le paradoxe de la fusion des sources, où les systèmes agentiels montrent une faible capacité d'orchestration d'outils. Ces résultats indiquent que la prochaine frontière dans la recherche multimodale personnelle se situe au-delà des embeddings unifiés, nécessitant des systèmes de raisonnement agentiels robustes capables d'une satisfaction précise des contraintes et d'une fusion multi-source. Notre benchmark PhotoBench est disponible.
English
Personal photo albums are not merely collections of static images but living, ecological archives defined by temporal continuity, social entanglement, and rich metadata, which makes the personalized photo retrieval non-trivial. However, existing retrieval benchmarks rely heavily on context-isolated web snapshots, failing to capture the multi-source reasoning required to resolve authentic, intent-driven user queries. To bridge this gap, we introduce PhotoBench, the first benchmark constructed from authentic, personal albums. It is designed to shift the paradigm from visual matching to personalized multi-source intent-driven reasoning. Based on a rigorous multi-source profiling framework, which integrates visual semantics, spatial-temporal metadata, social identity, and temporal events for each image, we synthesize complex intent-driven queries rooted in users' life trajectories. Extensive evaluation on PhotoBench exposes two critical limitations: the modality gap, where unified embedding models collapse on non-visual constraints, and the source fusion paradox, where agentic systems perform poor tool orchestration. These findings indicate that the next frontier in personal multimodal retrieval lies beyond unified embeddings, necessitating robust agentic reasoning systems capable of precise constraint satisfaction and multi-source fusion. Our PhotoBench is available.