HippoCamp: Prestatie-evaluatie van contextuele agents op persoonlijke computers

Samenvatting

Wij presenteren HippoCamp, een nieuwe benchmark die is ontworpen om de capaciteiten van agents te evalueren op het gebied van multimodaal bestandsbeheer. In tegenstelling tot bestaande agentbenchmarks die zich richten op taken zoals webinteractie, toolgebruik of software-automatisering in generieke omgevingen, evalueert HippoCamp agents in gebruikersgerichte omgevingen om individuele gebruikersprofielen te modelleren en massale persoonlijke bestanden te doorzoeken voor contextbewust redeneren. Onze benchmark instantieert besturingssysteemschaal-bestandssystemen op basis van real-world profielen die diverse modaliteiten omvatten, bestaande uit 42,4 GB aan data verspreid over meer dan 2.000 real-world bestanden. Op basis van de ruwe bestanden construeren we 581 vraag-antwoordparen om de capaciteiten van agents te beoordelen op het gebied van zoeken, waarneming van bewijs en meerstapsredenering. Om fijnmazige analyse te vergemakkelijken, bieden we 46.1K dicht geannoteerde gestructureerde trajecten voor stapsgewijze foutdiagnose. We evalueren een breed scala aan state-of-the-art multimodale grote taalmodel (MLLM) en agentmethoden op HippoCamp. Onze uitgebreide experimenten tonen een significante prestatiekloof: zelfs de meest geavanceerde commerciële modellen behalen slechts 48,3% nauwkeurigheid in gebruikersprofilering, waarbij ze vooral moeite hebben met retrieval over lange horizonten en cross-modale redenering binnen dichte persoonlijke bestandssystemen. Bovendien identificeert onze stapsgewijze foutdiagnose multimodale perceptie en evidence grounding als de primaire knelpunten. Uiteindelijk legt HippoCamp de kritieke beperkingen van huidige agents in realistische, gebruikersgerichte omgevingen bloot en biedt het een robuuste basis voor de ontwikkeling van volgende-generatie persoonlijke AI-assistenten.

English

We present HippoCamp, a new benchmark designed to evaluate agents' capabilities on multimodal file management. Unlike existing agent benchmarks that focus on tasks like web interaction, tool use, or software automation in generic settings, HippoCamp evaluates agents in user-centric environments to model individual user profiles and search massive personal files for context-aware reasoning. Our benchmark instantiates device-scale file systems over real-world profiles spanning diverse modalities, comprising 42.4 GB of data across over 2K real-world files. Building upon the raw files, we construct 581 QA pairs to assess agents' capabilities in search, evidence perception, and multi-step reasoning. To facilitate fine-grained analysis, we provide 46.1K densely annotated structured trajectories for step-wise failure diagnosis. We evaluate a wide range of state-of-the-art multimodal large language models (MLLMs) and agentic methods on HippoCamp. Our comprehensive experiments reveal a significant performance gap: even the most advanced commercial models achieve only 48.3% accuracy in user profiling, struggling particularly with long-horizon retrieval and cross-modal reasoning within dense personal file systems. Furthermore, our step-wise failure diagnosis identifies multimodal perception and evidence grounding as the primary bottlenecks. Ultimately, HippoCamp exposes the critical limitations of current agents in realistic, user-centric environments and provides a robust foundation for developing next-generation personal AI assistants.

HippoCamp: Prestatie-evaluatie van contextuele agents op persoonlijke computers

HippoCamp: Benchmarking Contextual Agents on Personal Computers

Samenvatting

Support