HippoCamp: Benchmarking kontextueller Agenten auf Personal Computern

Zusammenfassung

Wir stellen HippoCamp vor, einen neuen Benchmark, der entwickelt wurde, um die Fähigkeiten von Agenten im Bereich des multimodalen Dateimanagements zu bewerten. Im Gegensatz zu bestehenden Agenten-Benchmarks, die sich auf Aufgaben wie Web-Interaktion, Werkzeugnutzung oder Softwareautomatisierung in generischen Umgebungen konzentrieren, evaluiert HippoCamp Agenten in benutzerzentrierten Umgebungen, um individuelle Benutzerprofile zu modellieren und massive persönliche Dateien für kontextbewusstes Schließen zu durchsuchen. Unser Benchmark instanziiert geräteweite Dateisysteme über realweltliche Profile, die verschiedene Modalitäten umfassen, und besteht aus 42,4 GB Daten über mehr als 2.000 reale Dateien. Aufbauend auf den Rohdateien konstruieren wir 581 Frage-Antwort-Paare, um die Fähigkeiten der Agenten in den Bereichen Suche, Beweiswahrnehmung und mehrschrittiges Schließen zu bewerten. Um eine feinkörnige Analyse zu ermöglichen, stellen wir 46.100 dicht annotierte, strukturierte Trajektorien für eine schrittweise Fehlerdiagnose bereit. Wir evaluieren eine Vielzahl modernster multimodaler großer Sprachmodelle (MLLMs) und agentenbasierter Methoden anhand von HippoCamp. Unsere umfassenden Experimente zeigen eine erhebliche Leistungslücke: Selbst die fortschrittlichsten kommerziellen Modelle erreichen nur eine Genauigkeit von 48,3 % bei der Benutzerprofilierung und haben besonders mit langfristiger Retrieval-Aufgaben und modalitätsübergreifendem Schließen innerhalb dichter persönlicher Dateisysteme zu kämpfen. Darüber hinaus identifiziert unsere schrittweise Fehlerdiagnose die multimodale Wahrnehmung und die Beweisverankerung als die primären Engpässe. Letztendlich macht HippoCamp die kritischen Grenzen aktueller Agenten in realistischen, benutzerzentrierten Umgebungen deutlich und bietet eine robuste Grundlage für die Entwicklung von Personal AI Assistants der nächsten Generation.

English

We present HippoCamp, a new benchmark designed to evaluate agents' capabilities on multimodal file management. Unlike existing agent benchmarks that focus on tasks like web interaction, tool use, or software automation in generic settings, HippoCamp evaluates agents in user-centric environments to model individual user profiles and search massive personal files for context-aware reasoning. Our benchmark instantiates device-scale file systems over real-world profiles spanning diverse modalities, comprising 42.4 GB of data across over 2K real-world files. Building upon the raw files, we construct 581 QA pairs to assess agents' capabilities in search, evidence perception, and multi-step reasoning. To facilitate fine-grained analysis, we provide 46.1K densely annotated structured trajectories for step-wise failure diagnosis. We evaluate a wide range of state-of-the-art multimodal large language models (MLLMs) and agentic methods on HippoCamp. Our comprehensive experiments reveal a significant performance gap: even the most advanced commercial models achieve only 48.3% accuracy in user profiling, struggling particularly with long-horizon retrieval and cross-modal reasoning within dense personal file systems. Furthermore, our step-wise failure diagnosis identifies multimodal perception and evidence grounding as the primary bottlenecks. Ultimately, HippoCamp exposes the critical limitations of current agents in realistic, user-centric environments and provides a robust foundation for developing next-generation personal AI assistants.

HippoCamp: Benchmarking kontextueller Agenten auf Personal Computern

HippoCamp: Benchmarking Contextual Agents on Personal Computers

Zusammenfassung

Support