Agenti Embodied e Personalizzazione: Esplorare l'Utilizzo della Memoria per l'Assistenza Personalizzata
Embodied Agents Meet Personalization: Exploring Memory Utilization for Personalized Assistance
May 22, 2025
Autori: Taeyoon Kwon, Dongwook Choi, Sunghwan Kim, Hyojun Kim, Seungjun Moon, Beong-woo Kwak, Kuan-Hao Huang, Jinyoung Yeo
cs.AI
Abstract
Gli agenti incarnati potenziati da modelli linguistici di grandi dimensioni (LLM) hanno dimostrato prestazioni solide nei compiti di riorganizzazione degli oggetti domestici. Tuttavia, questi compiti si concentrano principalmente su interazioni a turno singolo con istruzioni semplificate, che non riflettono veramente le sfide di fornire un'assistenza significativa agli utenti. Per offrire un'assistenza personalizzata, gli agenti incarnati devono comprendere le semantiche uniche che gli utenti assegnano al mondo fisico (ad esempio, la tazza preferita, la routine della colazione) sfruttando la storia delle interazioni precedenti per interpretare istruzioni dinamiche e legate al mondo reale. Tuttavia, l'efficacia degli agenti incarnati nell'utilizzo della memoria per un'assistenza personalizzata rimane in gran parte inesplorata. Per colmare questa lacuna, presentiamo MEMENTO, un framework di valutazione per agenti incarnati personalizzati progettato per valutare in modo completo le capacità di utilizzo della memoria per fornire un'assistenza personalizzata. Il nostro framework consiste in un processo di valutazione della memoria a due fasi che consente di quantificare l'impatto dell'utilizzo della memoria sulle prestazioni del compito. Questo processo permette di valutare la comprensione da parte degli agenti delle conoscenze personalizzate nei compiti di riorganizzazione degli oggetti, concentrandosi sul loro ruolo nell'interpretazione degli obiettivi: (1) la capacità di identificare oggetti target in base al significato personale (semantica degli oggetti), e (2) la capacità di dedurre le configurazioni oggetto-posizione da modelli utente coerenti, come le routine (modelli utente). I nostri esperimenti su vari LLM rivelano significative limitazioni nell'utilizzo della memoria, con persino modelli all'avanguardia come GPT-4o che registrano un calo delle prestazioni del 30,5% quando è necessario fare riferimento a più memorie, in particolare nei compiti che coinvolgono modelli utente. Questi risultati, insieme alle nostre analisi dettagliate e studi di caso, forniscono preziose indicazioni per la ricerca futura nello sviluppo di agenti incarnati personalizzati più efficaci. Sito web del progetto: https://connoriginal.github.io/MEMENTO
English
Embodied agents empowered by large language models (LLMs) have shown strong
performance in household object rearrangement tasks. However, these tasks
primarily focus on single-turn interactions with simplified instructions, which
do not truly reflect the challenges of providing meaningful assistance to
users. To provide personalized assistance, embodied agents must understand the
unique semantics that users assign to the physical world (e.g., favorite cup,
breakfast routine) by leveraging prior interaction history to interpret
dynamic, real-world instructions. Yet, the effectiveness of embodied agents in
utilizing memory for personalized assistance remains largely underexplored. To
address this gap, we present MEMENTO, a personalized embodied agent evaluation
framework designed to comprehensively assess memory utilization capabilities to
provide personalized assistance. Our framework consists of a two-stage memory
evaluation process design that enables quantifying the impact of memory
utilization on task performance. This process enables the evaluation of agents'
understanding of personalized knowledge in object rearrangement tasks by
focusing on its role in goal interpretation: (1) the ability to identify target
objects based on personal meaning (object semantics), and (2) the ability to
infer object-location configurations from consistent user patterns, such as
routines (user patterns). Our experiments across various LLMs reveal
significant limitations in memory utilization, with even frontier models like
GPT-4o experiencing a 30.5% performance drop when required to reference
multiple memories, particularly in tasks involving user patterns. These
findings, along with our detailed analyses and case studies, provide valuable
insights for future research in developing more effective personalized embodied
agents. Project website: https://connoriginal.github.io/MEMENTO