HippoCamp: Valutazione delle Prestazioni degli Agenti Contestuali su Computer Personali

Abstract

Presentiamo HippoCamp, un nuovo benchmark progettato per valutare le capacità degli agenti nella gestione multimodale di file. A differenza dei benchmark esistenti per agenti, che si concentrano su compiti come l'interazione web, l'uso di strumenti o l'automazione software in contesti generici, HippoCamp valuta gli agenti in ambienti incentrati sull'utente per modellare profili utente individuali e ricercare file personali di grandi dimensioni per un ragionamento contestuale. Il nostro benchmark istanzia file system di dimensioni reali basati su profili del mondo reale che abbracciano diverse modalità, comprendendo 42,4 GB di dati distribuiti su oltre 2.000 file reali. Sulla base dei file grezzi, costruiamo 581 coppie di domande e risposte (QA) per valutare le capacità degli agenti nella ricerca, nella percezione delle evidenze e nel ragionamento a più fasi. Per facilitare un'analisi granulare, forniamo 46.1K traiettorie strutturate annotate densamente per la diagnosi degli errori passo-passo. Valutiamo un'ampia gamma di modelli linguistici multimodali (MLLM) all'avanguardia e metodi agentivi su HippoCamp. I nostri esperimenti completi rivelano un divario prestazionale significativo: anche i modelli commerciali più avanzati raggiungono solo un'accuratezza del 48,3% nella profilazione dell'utente, trovando particolari difficoltà nel recupero a lungo termine e nel ragionamento cross-modale all'interno di densi file system personali. Inoltre, la nostra diagnosi degli errori passo-passo identifica la percezione multimodale e il grounding delle evidenze come i principali colli di bottiglia. In definitiva, HippoCamp mette in luce le limitazioni critiche degli agenti attuali in ambienti realistici e centrati sull'utente e fornisce una solida base per lo sviluppo di assistenti AI personali di prossima generazione.

English

We present HippoCamp, a new benchmark designed to evaluate agents' capabilities on multimodal file management. Unlike existing agent benchmarks that focus on tasks like web interaction, tool use, or software automation in generic settings, HippoCamp evaluates agents in user-centric environments to model individual user profiles and search massive personal files for context-aware reasoning. Our benchmark instantiates device-scale file systems over real-world profiles spanning diverse modalities, comprising 42.4 GB of data across over 2K real-world files. Building upon the raw files, we construct 581 QA pairs to assess agents' capabilities in search, evidence perception, and multi-step reasoning. To facilitate fine-grained analysis, we provide 46.1K densely annotated structured trajectories for step-wise failure diagnosis. We evaluate a wide range of state-of-the-art multimodal large language models (MLLMs) and agentic methods on HippoCamp. Our comprehensive experiments reveal a significant performance gap: even the most advanced commercial models achieve only 48.3% accuracy in user profiling, struggling particularly with long-horizon retrieval and cross-modal reasoning within dense personal file systems. Furthermore, our step-wise failure diagnosis identifies multimodal perception and evidence grounding as the primary bottlenecks. Ultimately, HippoCamp exposes the critical limitations of current agents in realistic, user-centric environments and provides a robust foundation for developing next-generation personal AI assistants.

HippoCamp: Valutazione delle Prestazioni degli Agenti Contestuali su Computer Personali

HippoCamp: Benchmarking Contextual Agents on Personal Computers

Abstract

Support