Agentes Incorporados Encontram Personalização: Explorando a Utilização de Memória para Assistência Personalizada
Embodied Agents Meet Personalization: Exploring Memory Utilization for Personalized Assistance
May 22, 2025
Autores: Taeyoon Kwon, Dongwook Choi, Sunghwan Kim, Hyojun Kim, Seungjun Moon, Beong-woo Kwak, Kuan-Hao Huang, Jinyoung Yeo
cs.AI
Resumo
Agentes corporificados impulsionados por grandes modelos de linguagem (LLMs) têm demonstrado um desempenho robusto em tarefas de rearranjo de objetos domésticos. No entanto, essas tarefas concentram-se principalmente em interações de turno único com instruções simplificadas, o que não reflete verdadeiramente os desafios de fornecer assistência significativa aos usuários. Para oferecer assistência personalizada, os agentes corporificados devem compreender a semântica única que os usuários atribuem ao mundo físico (por exemplo, xícara favorita, rotina matinal), aproveitando o histórico de interações anteriores para interpretar instruções dinâmicas do mundo real. Ainda assim, a eficácia dos agentes corporificados na utilização da memória para assistência personalizada permanece amplamente inexplorada. Para abordar essa lacuna, apresentamos o MEMENTO, um framework de avaliação de agentes corporificados personalizados projetado para avaliar de forma abrangente as capacidades de utilização da memória para fornecer assistência personalizada. Nosso framework consiste em um processo de avaliação de memória em duas etapas que permite quantificar o impacto da utilização da memória no desempenho da tarefa. Esse processo possibilita a avaliação do entendimento dos agentes sobre conhecimento personalizado em tarefas de rearranjo de objetos, focando em seu papel na interpretação de objetivos: (1) a capacidade de identificar objetos-alvo com base em significados pessoais (semântica de objetos) e (2) a capacidade de inferir configurações objeto-localização a partir de padrões consistentes do usuário, como rotinas (padrões do usuário). Nossos experimentos com diversos LLMs revelam limitações significativas na utilização da memória, com até mesmo modelos de ponta como o GPT-4o apresentando uma queda de 30,5% no desempenho quando necessário referenciar múltiplas memórias, especialmente em tarefas envolvendo padrões do usuário. Essas descobertas, juntamente com nossas análises detalhadas e estudos de caso, fornecem insights valiosos para pesquisas futuras no desenvolvimento de agentes corporificados personalizados mais eficazes. Site do projeto: https://connoriginal.github.io/MEMENTO
English
Embodied agents empowered by large language models (LLMs) have shown strong
performance in household object rearrangement tasks. However, these tasks
primarily focus on single-turn interactions with simplified instructions, which
do not truly reflect the challenges of providing meaningful assistance to
users. To provide personalized assistance, embodied agents must understand the
unique semantics that users assign to the physical world (e.g., favorite cup,
breakfast routine) by leveraging prior interaction history to interpret
dynamic, real-world instructions. Yet, the effectiveness of embodied agents in
utilizing memory for personalized assistance remains largely underexplored. To
address this gap, we present MEMENTO, a personalized embodied agent evaluation
framework designed to comprehensively assess memory utilization capabilities to
provide personalized assistance. Our framework consists of a two-stage memory
evaluation process design that enables quantifying the impact of memory
utilization on task performance. This process enables the evaluation of agents'
understanding of personalized knowledge in object rearrangement tasks by
focusing on its role in goal interpretation: (1) the ability to identify target
objects based on personal meaning (object semantics), and (2) the ability to
infer object-location configurations from consistent user patterns, such as
routines (user patterns). Our experiments across various LLMs reveal
significant limitations in memory utilization, with even frontier models like
GPT-4o experiencing a 30.5% performance drop when required to reference
multiple memories, particularly in tasks involving user patterns. These
findings, along with our detailed analyses and case studies, provide valuable
insights for future research in developing more effective personalized embodied
agents. Project website: https://connoriginal.github.io/MEMENTO