PersonaVLM: Modelos de Linguagem Multimodais Personalizados de Longo Prazo

Resumo

Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) servem como assistentes diários para milhões de pessoas. No entanto, a sua capacidade de gerar respostas alinhadas com as preferências individuais permanece limitada. Abordagens anteriores permitem apenas uma personalização estática e de turno único através de aumento de entrada ou alinhamento de saída, falhando assim em capturar as preferências e personalidade dos utilizadores em evolução ao longo do tempo (ver Fig.1). Neste artigo, apresentamos o PersonaVLM, uma estrutura inovadora de agente multimodal personalizado concebida para personalização de longo prazo. Esta transforma um MLLM de propósito geral num assistente personalizado através da integração de três capacidades principais: (a) Memorização: Extrai e resume proativamente memórias multimodais cronológicas das interações, consolidando-as numa base de dados personalizada. (b) Raciocínio: Realiza raciocínio multi-turno através da recuperação e integração de memórias relevantes da base de dados. (c) Alinhamento de Resposta: Infere a personalidade em evolução do utilizador ao longo de interações de longo prazo para garantir que as saídas permanecem alinhadas com as suas características únicas. Para avaliação, estabelecemos o Persona-MME, um benchmark abrangente que compreende mais de 2.000 casos de interação curados, concebido para avaliar a personalização de MLLMs de longo prazo em sete aspetos principais e 14 tarefas de granularidade fina. Experimentos extensivos validam a eficácia do nosso método, melhorando a linha de base em 22,4% (Persona-MME) e 9,8% (PERSONAMEM) sob um contexto de 128k, superando ainda o GPT-4o em 5,2% e 2,0%, respetivamente. Página do projeto: https://PersonaVLM.github.io.

English

Multimodal Large Language Models (MLLMs) serve as daily assistants for millions. However, their ability to generate responses aligned with individual preferences remains limited. Prior approaches enable only static, single-turn personalization through input augmentation or output alignment, and thus fail to capture users' evolving preferences and personality over time (see Fig.1). In this paper, we introduce PersonaVLM, an innovative personalized multimodal agent framework designed for long-term personalization. It transforms a general-purpose MLLM into a personalized assistant by integrating three key capabilities: (a) Remembering: It proactively extracts and summarizes chronological multimodal memories from interactions, consolidating them into a personalized database. (b) Reasoning: It conducts multi-turn reasoning by retrieving and integrating relevant memories from the database. (c) Response Alignment: It infers the user's evolving personality throughout long-term interactions to ensure outputs remain aligned with their unique characteristics. For evaluation, we establish Persona-MME, a comprehensive benchmark comprising over 2,000 curated interaction cases, designed to assess long-term MLLM personalization across seven key aspects and 14 fine-grained tasks. Extensive experiments validate our method's effectiveness, improving the baseline by 22.4% (Persona-MME) and 9.8% (PERSONAMEM) under a 128k context, while outperforming GPT-4o by 5.2% and 2.0%, respectively. Project page: https://PersonaVLM.github.io.

PersonaVLM: Modelos de Linguagem Multimodais Personalizados de Longo Prazo

PersonaVLM: Long-Term Personalized Multimodal LLMs

Resumo

Support