PersonaVLM: Modelli Linguistici Multimodali Personalizzati a Lungo Termine

Abstract

I Modelli Linguistici Multimodali di Grande Dimensione (MLLM) fungono da assistenti quotidiani per milioni di persone. Tuttavia, la loro capacità di generare risposte allineate alle preferenze individuali rimane limitata. Gli approcci precedenti consentono solo una personalizzazione statica e a turno singolo attraverso l'aumento dell'input o l'allineamento dell'output, fallendo quindi nel cogliere le preferenze e la personalità degli utenti in evoluzione nel tempo (vedi Fig.1). In questo articolo, introduciamo PersonaVLM, un innovativo framework di agente multimodale personalizzato progettato per la personalizzazione a lungo termine. Esso trasforma un MLLM generico in un assistente personalizzato integrando tre capacità chiave: (a) Ricordo: Estrae e riassume proattivamente memorie multimodali cronologiche dalle interazioni, consolidandole in un database personalizzato. (b) Ragionamento: Svolge ragionamenti multi-turno recuperando e integrando memorie rilevanti dal database. (c) Allineamento della Risposta: Inferisce la personalità in evoluzione dell'utente durante le interazioni a lungo termine per garantire che gli output rimangano allineati con le sue caratteristiche uniche. Per la valutazione, istituiamo Persona-MME, un benchmark completo comprendente oltre 2.000 casi di interazione curati, progettato per valutare la personalizzazione a lungo termine degli MLLM attraverso sette aspetti chiave e 14 task granulari. Esperimenti estensivi convalidano l'efficacia del nostro metodo, che migliora la baseline del 22.4% (Persona-MME) e del 9.8% (PERSONAMEM) sotto un contesto di 128k, superando rispettivamente GPT-4o del 5.2% e del 2.0%. Pagina del progetto: https://PersonaVLM.github.io.

English

Multimodal Large Language Models (MLLMs) serve as daily assistants for millions. However, their ability to generate responses aligned with individual preferences remains limited. Prior approaches enable only static, single-turn personalization through input augmentation or output alignment, and thus fail to capture users' evolving preferences and personality over time (see Fig.1). In this paper, we introduce PersonaVLM, an innovative personalized multimodal agent framework designed for long-term personalization. It transforms a general-purpose MLLM into a personalized assistant by integrating three key capabilities: (a) Remembering: It proactively extracts and summarizes chronological multimodal memories from interactions, consolidating them into a personalized database. (b) Reasoning: It conducts multi-turn reasoning by retrieving and integrating relevant memories from the database. (c) Response Alignment: It infers the user's evolving personality throughout long-term interactions to ensure outputs remain aligned with their unique characteristics. For evaluation, we establish Persona-MME, a comprehensive benchmark comprising over 2,000 curated interaction cases, designed to assess long-term MLLM personalization across seven key aspects and 14 fine-grained tasks. Extensive experiments validate our method's effectiveness, improving the baseline by 22.4% (Persona-MME) and 9.8% (PERSONAMEM) under a 128k context, while outperforming GPT-4o by 5.2% and 2.0%, respectively. Project page: https://PersonaVLM.github.io.

PersonaVLM: Modelli Linguistici Multimodali Personalizzati a Lungo Termine

PersonaVLM: Long-Term Personalized Multimodal LLMs

Abstract

Support