PhotoBench: От визуального соответствия к персонализированному поиску фотографий на основе намерений
PhotoBench: Beyond Visual Matching Towards Personalized Intent-Driven Photo Retrieval
March 2, 2026
Авторы: Tianyi Xu, Rong Shan, Junjie Wu, Jiadeng Huang, Teng Wang, Jiachen Zhu, Wenteng Chen, Minxin Tu, Quantao Dou, Zhaoxiang Wang, Changwang Zhang, Weinan Zhang, Jun Wang, Jianghao Lin
cs.AI
Аннотация
Личные фотоальбомы представляют собой не просто коллекции статичных изображений, а живые, экологические архивы, определяемые временной непрерывностью, социальными взаимосвязями и богатыми метаданными, что делает персонализированный поиск фотографий нетривиальной задачей. Однако существующие бенчмарки для поиска в значительной степени опираются на изолированные от контекста веб-снимки, не способные отразить многоаспектное рассуждение, необходимое для решения аутентичных, намеренно-ориентированных пользовательских запросов. Чтобы устранить этот разрыв, мы представляем PhotoBench — первый бенчмарк, созданный на основе аутентичных личных альбомов. Он предназначен для смещения парадигмы от визуального сопоставления к персонализированному многоаспектному, намеренно-ориентированному рассуждению. На основе строгой системы профилирования из множества источников, которая интегрирует визуальную семантику, пространственно-временные метаданные, социальную идентичность и временные события для каждого изображения, мы синтезируем сложные намеренно-ориентированные запросы, укорененные в жизненных траекториях пользователей. Обширная оценка на PhotoBench выявляет два ключевых ограничения: *модальный разрыв*, когда унифицированные модели эмбеддингов не справляются с невизуальными ограничениями, и *парадокс слияния источников*, когда агентские системы демонстрируют слабую координацию инструментов. Эти результаты указывают на то, что следующий рубеж в персонализированном мультимодальном поиске лежит за пределами унифицированных эмбеддингов и требует создания надежных агентских систем рассуждений, способных к точному удовлетворению ограничений и слиянию информации из множества источников. Наш PhotoBench доступен.
English
Personal photo albums are not merely collections of static images but living, ecological archives defined by temporal continuity, social entanglement, and rich metadata, which makes the personalized photo retrieval non-trivial. However, existing retrieval benchmarks rely heavily on context-isolated web snapshots, failing to capture the multi-source reasoning required to resolve authentic, intent-driven user queries. To bridge this gap, we introduce PhotoBench, the first benchmark constructed from authentic, personal albums. It is designed to shift the paradigm from visual matching to personalized multi-source intent-driven reasoning. Based on a rigorous multi-source profiling framework, which integrates visual semantics, spatial-temporal metadata, social identity, and temporal events for each image, we synthesize complex intent-driven queries rooted in users' life trajectories. Extensive evaluation on PhotoBench exposes two critical limitations: the modality gap, where unified embedding models collapse on non-visual constraints, and the source fusion paradox, where agentic systems perform poor tool orchestration. These findings indicate that the next frontier in personal multimodal retrieval lies beyond unified embeddings, necessitating robust agentic reasoning systems capable of precise constraint satisfaction and multi-source fusion. Our PhotoBench is available.