Agentes Encarnados Encuentran la Personalización: Exploración de la Utilización de la Memoria para la Asistencia Personalizada

Resumen

Los agentes encarnados potenciados por modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento sólido en tareas de reorganización de objetos en el hogar. Sin embargo, estas tareas se centran principalmente en interacciones de un solo turno con instrucciones simplificadas, lo que no refleja verdaderamente los desafíos de brindar asistencia significativa a los usuarios. Para proporcionar asistencia personalizada, los agentes encarnados deben comprender la semántica única que los usuarios asignan al mundo físico (por ejemplo, la taza favorita, la rutina del desayuno) aprovechando el historial de interacciones previas para interpretar instrucciones dinámicas del mundo real. No obstante, la efectividad de los agentes encarnados en la utilización de la memoria para la asistencia personalizada sigue siendo en gran medida poco explorada. Para abordar esta brecha, presentamos MEMENTO, un marco de evaluación de agentes encarnados personalizados diseñado para evaluar de manera integral las capacidades de utilización de la memoria para brindar asistencia personalizada. Nuestro marco consiste en un diseño de proceso de evaluación de memoria en dos etapas que permite cuantificar el impacto de la utilización de la memoria en el rendimiento de la tarea. Este proceso permite evaluar la comprensión de los agentes sobre el conocimiento personalizado en tareas de reorganización de objetos, centrándose en su papel en la interpretación de objetivos: (1) la capacidad de identificar objetos objetivo basándose en significados personales (semántica de objetos), y (2) la capacidad de inferir configuraciones objeto-ubicación a partir de patrones consistentes del usuario, como rutinas (patrones del usuario). Nuestros experimentos con varios LLMs revelan limitaciones significativas en la utilización de la memoria, incluso en modelos de vanguardia como GPT-4o, que experimentan una caída del 30.5% en el rendimiento cuando se requiere hacer referencia a múltiples memorias, particularmente en tareas que involucran patrones del usuario. Estos hallazgos, junto con nuestros análisis detallados y estudios de caso, proporcionan valiosas perspectivas para futuras investigaciones en el desarrollo de agentes encarnados personalizados más efectivos. Sitio web del proyecto: https://connoriginal.github.io/MEMENTO

English

Embodied agents empowered by large language models (LLMs) have shown strong performance in household object rearrangement tasks. However, these tasks primarily focus on single-turn interactions with simplified instructions, which do not truly reflect the challenges of providing meaningful assistance to users. To provide personalized assistance, embodied agents must understand the unique semantics that users assign to the physical world (e.g., favorite cup, breakfast routine) by leveraging prior interaction history to interpret dynamic, real-world instructions. Yet, the effectiveness of embodied agents in utilizing memory for personalized assistance remains largely underexplored. To address this gap, we present MEMENTO, a personalized embodied agent evaluation framework designed to comprehensively assess memory utilization capabilities to provide personalized assistance. Our framework consists of a two-stage memory evaluation process design that enables quantifying the impact of memory utilization on task performance. This process enables the evaluation of agents' understanding of personalized knowledge in object rearrangement tasks by focusing on its role in goal interpretation: (1) the ability to identify target objects based on personal meaning (object semantics), and (2) the ability to infer object-location configurations from consistent user patterns, such as routines (user patterns). Our experiments across various LLMs reveal significant limitations in memory utilization, with even frontier models like GPT-4o experiencing a 30.5% performance drop when required to reference multiple memories, particularly in tasks involving user patterns. These findings, along with our detailed analyses and case studies, provide valuable insights for future research in developing more effective personalized embodied agents. Project website: https://connoriginal.github.io/MEMENTO