HippoCamp : Évaluation comparative des agents contextuels sur les ordinateurs personnels

Résumé

Nous présentons HippoCamp, une nouvelle référence conçue pour évaluer les capacités des agents en matière de gestion multimodale de fichiers. Contrairement aux benchmarks existants qui se concentrent sur des tâches telles que l'interaction web, l'utilisation d'outils ou l'automatisation logicielle dans des environnements génériques, HippoCamp évalue les agents dans des environnements centrés sur l'utilisateur pour modéliser des profils individuels et rechercher des fichiers personnels massifs en vue d'un raisonnement contextuel. Notre benchmark instancie des systèmes de fichiers à l'échelle d'un appareil sur des profils réels couvrant diverses modalités, comprenant 42,4 Go de données réparties sur plus de 2 000 fichiers du monde réel. À partir des fichiers bruts, nous construisons 581 paires de questions-réponses pour évaluer les capacités des agents en matière de recherche, de perception des preuves et de raisonnement à plusieurs étapes. Pour faciliter une analyse granulaire, nous fournissons 46 100 trajectoires structurées annotées de manière dense pour un diagnostic pas à pas des échecs. Nous évaluons un large éventail de modèles de langage multimodaux (MLLM) et de méthodes agentielles de pointe sur HippoCamp. Nos expériences complètes révèlent un écart de performance significatif : même les modèles commerciaux les plus avancés n'atteignent que 48,3 % de précision dans le profilage utilisateur, peinant particulièrement avec la récupération à long terme et le raisonnement intermodal au sein de systèmes de fichiers personnels denses. De plus, notre diagnostic pas à pas des échecs identifie la perception multimodale et l'ancrage des preuves comme les principaux goulots d'étranglement. En définitive, HippoCamp expose les limitations critiques des agents actuels dans des environnements réalistes et centrés sur l'utilisateur, et fournit une base solide pour le développement de la prochaine génération d'assistants personnels en IA.

English

We present HippoCamp, a new benchmark designed to evaluate agents' capabilities on multimodal file management. Unlike existing agent benchmarks that focus on tasks like web interaction, tool use, or software automation in generic settings, HippoCamp evaluates agents in user-centric environments to model individual user profiles and search massive personal files for context-aware reasoning. Our benchmark instantiates device-scale file systems over real-world profiles spanning diverse modalities, comprising 42.4 GB of data across over 2K real-world files. Building upon the raw files, we construct 581 QA pairs to assess agents' capabilities in search, evidence perception, and multi-step reasoning. To facilitate fine-grained analysis, we provide 46.1K densely annotated structured trajectories for step-wise failure diagnosis. We evaluate a wide range of state-of-the-art multimodal large language models (MLLMs) and agentic methods on HippoCamp. Our comprehensive experiments reveal a significant performance gap: even the most advanced commercial models achieve only 48.3% accuracy in user profiling, struggling particularly with long-horizon retrieval and cross-modal reasoning within dense personal file systems. Furthermore, our step-wise failure diagnosis identifies multimodal perception and evidence grounding as the primary bottlenecks. Ultimately, HippoCamp exposes the critical limitations of current agents in realistic, user-centric environments and provides a robust foundation for developing next-generation personal AI assistants.

HippoCamp : Évaluation comparative des agents contextuels sur les ordinateurs personnels

HippoCamp: Benchmarking Contextual Agents on Personal Computers

Résumé

Support