HippoCamp: Avaliação de Agentes Contextuais em Computadores Pessoais

Resumo

Apresentamos o HippoCamp, um novo benchmark concebido para avaliar as capacidades de agentes na gestão multimodal de ficheiros. Ao contrário dos benchmarks de agentes existentes, que se concentram em tarefas como interação web, uso de ferramentas ou automação de software em ambientes genéricos, o HippoCamp avalia os agentes em ambientes centrados no utilizador para modelar perfis de utilizador individuais e pesquisar ficheiros pessoais massivos para um raciocínio contextual. O nosso benchmark instancia sistemas de ficheiros à escala de dispositivos sobre perfis do mundo real que abrangem diversas modalidades, compreendendo 42,4 GB de dados distribuídos por mais de 2 mil ficheiros reais. Com base nos ficheiros brutos, construímos 581 pares de perguntas e respostas (QA) para avaliar as capacidades dos agentes em pesquisa, perceção de evidências e raciocínio multi-etapas. Para facilitar uma análise granular, fornecemos 46,1 mil trajetórias estruturadas densamente anotadas para diagnóstico de falhas passo a passo. Avaliamos uma ampla gama de modelos de linguagem grandes multimodais (MLLMs) e métodos de agentes state-of-the-art no HippoCamp. As nossas experiências abrangentes revelam uma lacuna significativa de desempenho: mesmo os modelos comerciais mais avançados atingem apenas 48,3% de precisão na criação de perfis de utilizador, com dificuldades particularmente na recuperação de longo horizonte e no raciocínio cross-modal dentro de sistemas de ficheiros pessoais densos. Além disso, o nosso diagnóstico de falhas passo a passo identifica a perceção multimodal e a fundamentação em evidências como os principais estrangulamentos. Em última análise, o HippoCamp expõe as limitações críticas dos agentes atuais em ambientes realistas e centrados no utilizador e fornece uma base robusta para o desenvolvimento de assistentes de IA pessoais de próxima geração.

English

We present HippoCamp, a new benchmark designed to evaluate agents' capabilities on multimodal file management. Unlike existing agent benchmarks that focus on tasks like web interaction, tool use, or software automation in generic settings, HippoCamp evaluates agents in user-centric environments to model individual user profiles and search massive personal files for context-aware reasoning. Our benchmark instantiates device-scale file systems over real-world profiles spanning diverse modalities, comprising 42.4 GB of data across over 2K real-world files. Building upon the raw files, we construct 581 QA pairs to assess agents' capabilities in search, evidence perception, and multi-step reasoning. To facilitate fine-grained analysis, we provide 46.1K densely annotated structured trajectories for step-wise failure diagnosis. We evaluate a wide range of state-of-the-art multimodal large language models (MLLMs) and agentic methods on HippoCamp. Our comprehensive experiments reveal a significant performance gap: even the most advanced commercial models achieve only 48.3% accuracy in user profiling, struggling particularly with long-horizon retrieval and cross-modal reasoning within dense personal file systems. Furthermore, our step-wise failure diagnosis identifies multimodal perception and evidence grounding as the primary bottlenecks. Ultimately, HippoCamp exposes the critical limitations of current agents in realistic, user-centric environments and provides a robust foundation for developing next-generation personal AI assistants.

HippoCamp: Avaliação de Agentes Contextuais em Computadores Pessoais

HippoCamp: Benchmarking Contextual Agents on Personal Computers

Resumo

Support