HippoCamp: Тестирование контекстных агентов на персональных компьютерах

Аннотация

Мы представляем HippoCamp — новый эталонный тест, предназначенный для оценки способностей агентов к работе с мультимодальными файлами. В отличие от существующих бенчмарков, которые фокусируются на таких задачах, как веб-взаимодействие, использование инструментов или автоматизация программного обеспечения в общих условиях, HippoCamp оценивает агентов в пользовательских средах для моделирования индивидуальных профилей пользователей и поиска в огромных массивах личных файлов с целью контекстно-зависимых рассуждений. Наш бенчмарк инстанцирует файловые системы масштаба устройства на основе реальных профилей, охватывающих различные модальности, и включает 42,4 ГБ данных, распределенных по более чем 2 тысячам реальных файлов. На основе этих исходных файлов мы создали 581 вопросно-ответную пару для оценки способностей агентов к поиску, восприятию свидетельств и многошаговым рассуждениям. Для облегчения детального анализа мы предоставляем 46,1 тысяч плотно размеченных структурированных траекторий для пошаговой диагностики ошибок. Мы оценили широкий спектр современных мультимодальных больших языковых моделей (МБЯМ) и агентских методов на HippoCamp. Наши комплексные эксперименты выявляют значительный разрыв в производительности: даже самые передовые коммерческие модели достигают точности всего в 48,3% в задаче профилирования пользователя, испытывая особые трудности с долгосрочным поиском и кросс-модальными рассуждениями в плотных личных файловых системах. Более того, наша пошаговая диагностика ошибок определяет мультимодальное восприятие и обоснование доказательств как основные узкие места. В конечном счете, HippoCamp выявляет критические ограничения современных агентов в реалистичных, ориентированных на пользователя средах и закладывает прочную основу для разработки персональных AI-ассистентов следующего поколения.

English

We present HippoCamp, a new benchmark designed to evaluate agents' capabilities on multimodal file management. Unlike existing agent benchmarks that focus on tasks like web interaction, tool use, or software automation in generic settings, HippoCamp evaluates agents in user-centric environments to model individual user profiles and search massive personal files for context-aware reasoning. Our benchmark instantiates device-scale file systems over real-world profiles spanning diverse modalities, comprising 42.4 GB of data across over 2K real-world files. Building upon the raw files, we construct 581 QA pairs to assess agents' capabilities in search, evidence perception, and multi-step reasoning. To facilitate fine-grained analysis, we provide 46.1K densely annotated structured trajectories for step-wise failure diagnosis. We evaluate a wide range of state-of-the-art multimodal large language models (MLLMs) and agentic methods on HippoCamp. Our comprehensive experiments reveal a significant performance gap: even the most advanced commercial models achieve only 48.3% accuracy in user profiling, struggling particularly with long-horizon retrieval and cross-modal reasoning within dense personal file systems. Furthermore, our step-wise failure diagnosis identifies multimodal perception and evidence grounding as the primary bottlenecks. Ultimately, HippoCamp exposes the critical limitations of current agents in realistic, user-centric environments and provides a robust foundation for developing next-generation personal AI assistants.

HippoCamp: Тестирование контекстных агентов на персональных компьютерах

HippoCamp: Benchmarking Contextual Agents on Personal Computers

Аннотация

Support