HippoCamp: Evaluación de Agentes Contextuales en Computadoras Personales

Resumen

Presentamos HippoCamp, un nuevo punto de referencia diseñado para evaluar las capacidades de los agentes en la gestión multimodal de archivos. A diferencia de los puntos de referencia existentes para agentes, que se centran en tareas como la interacción web, el uso de herramientas o la automatización de software en entornos genéricos, HippoCamp evalúa a los agentes en entornos centrados en el usuario para modelar perfiles de usuario individuales y buscar entre archivos personales masivos para realizar razonamientos conscientes del contexto. Nuestro punto de referencia instancia sistemas de archivos a escala de dispositivo sobre perfiles del mundo real que abarcan diversas modalidades, comprendiendo 42,4 GB de datos distribuidos en más de 2.000 archivos reales. Sobre la base de los archivos sin procesar, construimos 581 pares de preguntas y respuestas para evaluar las capacidades de los agentes en búsqueda, percepción de evidencia y razonamiento multi-etapa. Para facilitar un análisis granular, proporcionamos 46.1K trayectorias estructuradas con anotaciones densas para el diagnóstico de fallos paso a paso. Evaluamos una amplia gama de modelos de lenguaje grandes multimodales (MLLMs) y métodos agentales de vanguardia en HippoCamp. Nuestros experimentos exhaustivos revelan una brecha de rendimiento significativa: incluso los modelos comerciales más avanzados alcanzan solo un 48,3% de precisión en la elaboración de perfiles de usuario, luchando particularmente con la recuperación de horizontes largos y el razonamiento multimodal dentro de sistemas de archivos personales densos. Además, nuestro diagnóstico de fallos paso a paso identifica la percepción multimodal y la fundamentación de evidencias como los principales cuellos de botella. En última instancia, HippoCamp expone las limitaciones críticas de los agentes actuales en entornos realistas y centrados en el usuario, y proporciona una base sólida para el desarrollo de asistentes de IA personales de próxima generación.

English

We present HippoCamp, a new benchmark designed to evaluate agents' capabilities on multimodal file management. Unlike existing agent benchmarks that focus on tasks like web interaction, tool use, or software automation in generic settings, HippoCamp evaluates agents in user-centric environments to model individual user profiles and search massive personal files for context-aware reasoning. Our benchmark instantiates device-scale file systems over real-world profiles spanning diverse modalities, comprising 42.4 GB of data across over 2K real-world files. Building upon the raw files, we construct 581 QA pairs to assess agents' capabilities in search, evidence perception, and multi-step reasoning. To facilitate fine-grained analysis, we provide 46.1K densely annotated structured trajectories for step-wise failure diagnosis. We evaluate a wide range of state-of-the-art multimodal large language models (MLLMs) and agentic methods on HippoCamp. Our comprehensive experiments reveal a significant performance gap: even the most advanced commercial models achieve only 48.3% accuracy in user profiling, struggling particularly with long-horizon retrieval and cross-modal reasoning within dense personal file systems. Furthermore, our step-wise failure diagnosis identifies multimodal perception and evidence grounding as the primary bottlenecks. Ultimately, HippoCamp exposes the critical limitations of current agents in realistic, user-centric environments and provides a robust foundation for developing next-generation personal AI assistants.

HippoCamp: Evaluación de Agentes Contextuales en Computadoras Personales

HippoCamp: Benchmarking Contextual Agents on Personal Computers

Resumen

Support