HippoCamp: 개인용 컴퓨터에서 컨텍스트 에이전트 성능 평가
HippoCamp: Benchmarking Contextual Agents on Personal Computers
April 1, 2026
저자: Zhe Yang, Shulin Tian, Kairui Hu, Shuai Liu, Hoang-Nhat Nguyen, Yichi Zhang, Zujin Guo, Mengying Yu, Zinan Zhang, Jingkang Yang, Chen Change Loy, Ziwei Liu
cs.AI
초록
사용자 중심 환경에서 개인 사용자 프로필을 모델링하고 방대한 개인 파일을 검색하여 상황 인식 추론을 수행하는 에이전트 능력을 평가하기 위해 새로운 벤치마크인 HippoCamp를 소개한다. 기존의 일반적인 환경에서 웹 상호작용, 도구 사용, 소프트웨어 자동화 등에 초점을 맞춘 에이전트 벤치마크와 달리, HippoCamp는 다양한 양식을 아우르는 실제 프로필을 기반으로 기기 수준의 파일 시스템을 구현하며, 2,000개 이상의 실제 파일로 구성된 42.4GB 규모의 데이터를 포함한다. 원본 파일을 바탕으로 581개의 질의-응답 쌍을 구성하여 검색, 증거 인지, 다단계 추론 등 에이전트의 능력을 평가한다. 세분화된 분석을 위해 단계별 실패 진단을 위한 46,100개의 집중 주석 구조화 궤적을 제공한다. HippoCamp를 통해 다양한 최첨단 멀티모달 대규모 언어 모델(MLLM) 및 에이전트 방법을 평가한 결과, 포괄적인 실험에서 상당한 성능 격차가 확인되었다: 가장 진보된 상용 모델도 사용자 프로파일링 정확도가 48.3%에 그치며, 특히 밀집된 개인 파일 시스템 내 장기간 검색 및 교차 모달 추론에서 어려움을 겪었다. 또한 단계별 실패 진단을 통해 멀티모달 인지와 증거 기반 형성이 주요 병목 현상으로Identified되었다. 결국 HippoCamp는 현실적이고 사용자 중심 환경에서 현재 에이전트의 심각한 한계를 드러내며 차세대 개인 AI 어시스턴트 개발을 위한 견고한 기반을 제공한다.
English
We present HippoCamp, a new benchmark designed to evaluate agents' capabilities on multimodal file management. Unlike existing agent benchmarks that focus on tasks like web interaction, tool use, or software automation in generic settings, HippoCamp evaluates agents in user-centric environments to model individual user profiles and search massive personal files for context-aware reasoning. Our benchmark instantiates device-scale file systems over real-world profiles spanning diverse modalities, comprising 42.4 GB of data across over 2K real-world files. Building upon the raw files, we construct 581 QA pairs to assess agents' capabilities in search, evidence perception, and multi-step reasoning. To facilitate fine-grained analysis, we provide 46.1K densely annotated structured trajectories for step-wise failure diagnosis. We evaluate a wide range of state-of-the-art multimodal large language models (MLLMs) and agentic methods on HippoCamp. Our comprehensive experiments reveal a significant performance gap: even the most advanced commercial models achieve only 48.3% accuracy in user profiling, struggling particularly with long-horizon retrieval and cross-modal reasoning within dense personal file systems. Furthermore, our step-wise failure diagnosis identifies multimodal perception and evidence grounding as the primary bottlenecks. Ultimately, HippoCamp exposes the critical limitations of current agents in realistic, user-centric environments and provides a robust foundation for developing next-generation personal AI assistants.