PhotoBench: Más allá de la coincidencia visual hacia la recuperación de fotos personalizada basada en la intención

Resumen

Los álbumes de fotos personales no son meras colecciones de imágenes estáticas, sino archivos ecológicos vivos definidos por la continuidad temporal, el entrelazamiento social y metadatos enriquecidos, lo que hace que la recuperación personalizada de fotografías no sea trivial. Sin embargo, los benchmarks de recuperación existentes dependen en gran medida de instantáneas web aisladas del contexto, sin capturar el razonamiento multi-fuente necesario para resolver consultas de usuarios auténticas e impulsadas por intenciones. Para cerrar esta brecha, presentamos PhotoBench, el primer benchmark construido a partir de álbumes personales auténticos. Está diseñado para cambiar el paradigma de la coincidencia visual al razonamiento personalizado, impulsado por intenciones y multi-fuente. Basándonos en un riguroso marco de perfilado multi-fuente, que integra semántica visual, metadatos espacio-temporales, identidad social y eventos temporales para cada imagen, sintetizamos consultas complejas impulsadas por intenciones y arraigadas en las trayectorias vitales de los usuarios. Una evaluación exhaustiva en PhotoBench expone dos limitaciones críticas: la brecha de modalidad, donde los modelos de embedding unificado fallan en restricciones no visuales, y la paradoja de la fusión de fuentes, donde los sistemas agentes muestran una orquestación deficiente de herramientas. Estos hallazgos indican que la siguiente frontera en la recuperación multimodal personalizada va más allá de los embeddings unificados, necesitando sistemas de razonamiento agentes robustos capaces de una satisfacción precisa de restricciones y una fusión multi-fuente. Nuestro PhotoBench está disponible.

English

Personal photo albums are not merely collections of static images but living, ecological archives defined by temporal continuity, social entanglement, and rich metadata, which makes the personalized photo retrieval non-trivial. However, existing retrieval benchmarks rely heavily on context-isolated web snapshots, failing to capture the multi-source reasoning required to resolve authentic, intent-driven user queries. To bridge this gap, we introduce PhotoBench, the first benchmark constructed from authentic, personal albums. It is designed to shift the paradigm from visual matching to personalized multi-source intent-driven reasoning. Based on a rigorous multi-source profiling framework, which integrates visual semantics, spatial-temporal metadata, social identity, and temporal events for each image, we synthesize complex intent-driven queries rooted in users' life trajectories. Extensive evaluation on PhotoBench exposes two critical limitations: the modality gap, where unified embedding models collapse on non-visual constraints, and the source fusion paradox, where agentic systems perform poor tool orchestration. These findings indicate that the next frontier in personal multimodal retrieval lies beyond unified embeddings, necessitating robust agentic reasoning systems capable of precise constraint satisfaction and multi-source fusion. Our PhotoBench is available.

PhotoBench: Más allá de la coincidencia visual hacia la recuperación de fotos personalizada basada en la intención

PhotoBench: Beyond Visual Matching Towards Personalized Intent-Driven Photo Retrieval

Resumen

Support