Agentes Encarnados Encuentran la Personalización: Exploración de la Utilización de la Memoria para la Asistencia Personalizada
Embodied Agents Meet Personalization: Exploring Memory Utilization for Personalized Assistance
May 22, 2025
Autores: Taeyoon Kwon, Dongwook Choi, Sunghwan Kim, Hyojun Kim, Seungjun Moon, Beong-woo Kwak, Kuan-Hao Huang, Jinyoung Yeo
cs.AI
Resumen
Los agentes encarnados potenciados por modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento sólido en tareas de reorganización de objetos en el hogar. Sin embargo, estas tareas se centran principalmente en interacciones de un solo turno con instrucciones simplificadas, lo que no refleja verdaderamente los desafíos de brindar asistencia significativa a los usuarios. Para proporcionar asistencia personalizada, los agentes encarnados deben comprender la semántica única que los usuarios asignan al mundo físico (por ejemplo, la taza favorita, la rutina del desayuno) aprovechando el historial de interacciones previas para interpretar instrucciones dinámicas del mundo real. No obstante, la efectividad de los agentes encarnados en la utilización de la memoria para la asistencia personalizada sigue siendo en gran medida poco explorada. Para abordar esta brecha, presentamos MEMENTO, un marco de evaluación de agentes encarnados personalizados diseñado para evaluar de manera integral las capacidades de utilización de la memoria para brindar asistencia personalizada. Nuestro marco consiste en un diseño de proceso de evaluación de memoria en dos etapas que permite cuantificar el impacto de la utilización de la memoria en el rendimiento de la tarea. Este proceso permite evaluar la comprensión de los agentes sobre el conocimiento personalizado en tareas de reorganización de objetos, centrándose en su papel en la interpretación de objetivos: (1) la capacidad de identificar objetos objetivo basándose en significados personales (semántica de objetos), y (2) la capacidad de inferir configuraciones objeto-ubicación a partir de patrones consistentes del usuario, como rutinas (patrones del usuario). Nuestros experimentos con varios LLMs revelan limitaciones significativas en la utilización de la memoria, incluso en modelos de vanguardia como GPT-4o, que experimentan una caída del 30.5% en el rendimiento cuando se requiere hacer referencia a múltiples memorias, particularmente en tareas que involucran patrones del usuario. Estos hallazgos, junto con nuestros análisis detallados y estudios de caso, proporcionan valiosas perspectivas para futuras investigaciones en el desarrollo de agentes encarnados personalizados más efectivos. Sitio web del proyecto: https://connoriginal.github.io/MEMENTO
English
Embodied agents empowered by large language models (LLMs) have shown strong
performance in household object rearrangement tasks. However, these tasks
primarily focus on single-turn interactions with simplified instructions, which
do not truly reflect the challenges of providing meaningful assistance to
users. To provide personalized assistance, embodied agents must understand the
unique semantics that users assign to the physical world (e.g., favorite cup,
breakfast routine) by leveraging prior interaction history to interpret
dynamic, real-world instructions. Yet, the effectiveness of embodied agents in
utilizing memory for personalized assistance remains largely underexplored. To
address this gap, we present MEMENTO, a personalized embodied agent evaluation
framework designed to comprehensively assess memory utilization capabilities to
provide personalized assistance. Our framework consists of a two-stage memory
evaluation process design that enables quantifying the impact of memory
utilization on task performance. This process enables the evaluation of agents'
understanding of personalized knowledge in object rearrangement tasks by
focusing on its role in goal interpretation: (1) the ability to identify target
objects based on personal meaning (object semantics), and (2) the ability to
infer object-location configurations from consistent user patterns, such as
routines (user patterns). Our experiments across various LLMs reveal
significant limitations in memory utilization, with even frontier models like
GPT-4o experiencing a 30.5% performance drop when required to reference
multiple memories, particularly in tasks involving user patterns. These
findings, along with our detailed analyses and case studies, provide valuable
insights for future research in developing more effective personalized embodied
agents. Project website: https://connoriginal.github.io/MEMENTOSummary
AI-Generated Summary