PersonaVLM: Gepersonaliseerde Multimodale LLM's voor de Lange Termijn
PersonaVLM: Long-Term Personalized Multimodal LLMs
March 20, 2026
Auteurs: Chang Nie, Chaoyou Fu, Yifan Zhang, Haihua Yang, Caifeng Shan
cs.AI
Samenvatting
Multimodale Large Language Models (MLLM's) fungeren als dagelijkse assistenten voor miljoenen gebruikers. Hun vermogen om reacties te genereren die zijn afgestemd op individuele voorkeuren blijft echter beperkt. Eerdere benaderingen maken alleen statische, single-turn personalisatie mogelijk via input-augmentatie of output-afstemming, en slagen er zo niet in om de evoluerende voorkeuren en persoonlijkheid van gebruikers in de tijd vast te leggen (zie Fig.1). In dit artikel introduceren we PersonaVLM, een innovatief, gepersonaliseerd multimodaal agentframework ontworpen voor langetermijnpersonalisatie. Het transformeert een algemeen MLLM in een gepersonaliseerde assistent door de integratie van drie kerncapaciteiten: (a) Herinneren: Het extraheert en vat proactief chronologische multimodale herinneringen uit interacties samen en consolideert deze in een gepersonaliseerde database. (b) Redeneren: Het voert multi-turn redeneren uit door relevante herinneringen uit de database op te halen en te integreren. (c) Responsafstemming: Het leidt de evoluerende persoonlijkheid van de gebruiker af gedurende langdurige interacties om ervoor te zorgen dat outputs afgestemd blijven op hun unieke kenmerken. Voor de evaluatie stellen we Persona-MME op, een uitgebreide benchmark bestaande uit meer dan 2000 gecureerde interactiegevallen, ontworpen om langetermijn-MLLM-personalisatie te beoordelen over zeven kernaspecten en 14 fijnmazige taken. Uitgebreide experimenten valideren de effectiviteit van onze methode, waarbij de baseline met 22,4% (Persona-MME) en 9,8% (PERSONAMEM) verbeterd wordt onder een context van 128k tokens, terwijl het respectievelijk 5,2% en 2,0% beter presteert dan GPT-4o. Projectpagina: https://PersonaVLM.github.io.
English
Multimodal Large Language Models (MLLMs) serve as daily assistants for millions. However, their ability to generate responses aligned with individual preferences remains limited. Prior approaches enable only static, single-turn personalization through input augmentation or output alignment, and thus fail to capture users' evolving preferences and personality over time (see Fig.1). In this paper, we introduce PersonaVLM, an innovative personalized multimodal agent framework designed for long-term personalization. It transforms a general-purpose MLLM into a personalized assistant by integrating three key capabilities: (a) Remembering: It proactively extracts and summarizes chronological multimodal memories from interactions, consolidating them into a personalized database. (b) Reasoning: It conducts multi-turn reasoning by retrieving and integrating relevant memories from the database. (c) Response Alignment: It infers the user's evolving personality throughout long-term interactions to ensure outputs remain aligned with their unique characteristics. For evaluation, we establish Persona-MME, a comprehensive benchmark comprising over 2,000 curated interaction cases, designed to assess long-term MLLM personalization across seven key aspects and 14 fine-grained tasks. Extensive experiments validate our method's effectiveness, improving the baseline by 22.4% (Persona-MME) and 9.8% (PERSONAMEM) under a 128k context, while outperforming GPT-4o by 5.2% and 2.0%, respectively. Project page: https://PersonaVLM.github.io.