PhotoBench: Além da Correspondência Visual Rumo à Recuperação de Fotos Personalizada Orientada por Intenção
PhotoBench: Beyond Visual Matching Towards Personalized Intent-Driven Photo Retrieval
March 2, 2026
Autores: Tianyi Xu, Rong Shan, Junjie Wu, Jiadeng Huang, Teng Wang, Jiachen Zhu, Wenteng Chen, Minxin Tu, Quantao Dou, Zhaoxiang Wang, Changwang Zhang, Weinan Zhang, Jun Wang, Jianghao Lin
cs.AI
Resumo
Os álbuns de fotos pessoais não são meras coleções de imagens estáticas, mas arquivos ecológicos vivos definidos pela continuidade temporal, pelo entrelaçamento social e por metadados ricos, o que torna a recuperação personalizada de fotos uma tarefa complexa. No entanto, os benchmarks de recuperação existentes dependem fortemente de instantâneos da web isolados de contexto, falhando em capturar o raciocínio de múltiplas fontes necessário para resolver consultas autênticas e orientadas pela intenção do usuário. Para preencher esta lacuna, introduzimos o PhotoBench, o primeiro benchmark construído a partir de álbuns pessoais autênticos. Ele foi projetado para mudar o paradigma da correspondência visual para o raciocínio personalizado, orientado por intenção e baseado em múltiplas fontes. Com base num rigoroso quadro de perfilamento de múltiplas fontes, que integra semântica visual, metadados espaço-temporais, identidade social e eventos temporais para cada imagem, sintetizamos consultas complexas orientadas por intenção, enraizadas nas trajetórias de vida dos usuários. Uma avaliação extensiva no PhotoBench expõe duas limitações críticas: o hiato de modalidade, onde modelos de incorporação unificada falham em restrições não visuais, e o paradoxo da fusão de fontes, onde sistemas agentes apresentam orquestração deficiente de ferramentas. Estas descobertas indicam que a próxima fronteira na recuperação multimodal pessoal está para além das incorporações unificadas, necessitando de sistemas de raciocínio agentes robustos, capazes de uma satisfação precisa de restrições e de fusão de múltiplas fontes. O nosso PhotoBench está disponível.
English
Personal photo albums are not merely collections of static images but living, ecological archives defined by temporal continuity, social entanglement, and rich metadata, which makes the personalized photo retrieval non-trivial. However, existing retrieval benchmarks rely heavily on context-isolated web snapshots, failing to capture the multi-source reasoning required to resolve authentic, intent-driven user queries. To bridge this gap, we introduce PhotoBench, the first benchmark constructed from authentic, personal albums. It is designed to shift the paradigm from visual matching to personalized multi-source intent-driven reasoning. Based on a rigorous multi-source profiling framework, which integrates visual semantics, spatial-temporal metadata, social identity, and temporal events for each image, we synthesize complex intent-driven queries rooted in users' life trajectories. Extensive evaluation on PhotoBench exposes two critical limitations: the modality gap, where unified embedding models collapse on non-visual constraints, and the source fusion paradox, where agentic systems perform poor tool orchestration. These findings indicate that the next frontier in personal multimodal retrieval lies beyond unified embeddings, necessitating robust agentic reasoning systems capable of precise constraint satisfaction and multi-source fusion. Our PhotoBench is available.