PhotoBench: Oltre il Confronto Visivo Verso un Recupero di Foto Personalizzato Guidato dall'Intento

Abstract

Gli album fotografici personali non sono semplici raccolte di immagini statiche, ma archivi ecologici viventi definiti da continuità temporale, intrecci sociali e metadati ricchi, il che rende non banale il recupero fotografico personalizzato. Tuttavia, i benchmark di recupero esistenti si basano fortemente su istantanee web isolate dal contesto, non riuscendo a catturare il ragionamento multi-sorgente necessario per risolvere query utente autentiche e guidate dall'intento. Per colmare questa lacuna, introduciamo PhotoBench, il primo benchmark costruito da album personali autentici. È progettato per spostare il paradigma dalla corrispondenza visiva al ragionamento personalizzato, guidato dall'intento e multi-sorgente. Basandoci su un rigoroso framework di profilazione multi-sorgente, che integra per ogni immagine la semantica visiva, i metadati spaziotemporali, l'identità sociale e gli eventi temporali, sintetizziamo query complesse guidate dall'intento e radicate nelle traiettorie di vita degli utenti. Una valutazione estensiva su PhotoBench rivela due limitazioni critiche: il divario modale, dove i modelli di embedding unificati falliscono sui vincoli non visivi, e il paradosso della fusione delle sorgenti, dove i sistemi agentivi mostrano scarse capacità di orchestrazione degli strumenti. Questi risultati indicano che la prossima frontiera nel recupero multimodale personale va oltre gli embedding unificati, richiedendo robusti sistemi di ragionamento agentivo capaci di una soddisfazione precisa dei vincoli e di una fusione multi-sorgente. Il nostro PhotoBench è disponibile.

English

Personal photo albums are not merely collections of static images but living, ecological archives defined by temporal continuity, social entanglement, and rich metadata, which makes the personalized photo retrieval non-trivial. However, existing retrieval benchmarks rely heavily on context-isolated web snapshots, failing to capture the multi-source reasoning required to resolve authentic, intent-driven user queries. To bridge this gap, we introduce PhotoBench, the first benchmark constructed from authentic, personal albums. It is designed to shift the paradigm from visual matching to personalized multi-source intent-driven reasoning. Based on a rigorous multi-source profiling framework, which integrates visual semantics, spatial-temporal metadata, social identity, and temporal events for each image, we synthesize complex intent-driven queries rooted in users' life trajectories. Extensive evaluation on PhotoBench exposes two critical limitations: the modality gap, where unified embedding models collapse on non-visual constraints, and the source fusion paradox, where agentic systems perform poor tool orchestration. These findings indicate that the next frontier in personal multimodal retrieval lies beyond unified embeddings, necessitating robust agentic reasoning systems capable of precise constraint satisfaction and multi-source fusion. Our PhotoBench is available.

PhotoBench: Oltre il Confronto Visivo Verso un Recupero di Foto Personalizzato Guidato dall'Intento

PhotoBench: Beyond Visual Matching Towards Personalized Intent-Driven Photo Retrieval

Abstract

Support