PEARL: Gepersonaliseerd model voor het begrijpen van streamende video's
PEARL: Personalized Streaming Video Understanding Model
March 20, 2026
Auteurs: Yuanhong Zheng, Ruichuan An, Xiaopeng Lin, Yuxing Liu, Sihan Yang, Huanyu Zhang, Haodong Li, Qintong Zhang, Renrui Zhang, Guopeng Li, Yifan Zhang, Yuheng Li, Wentao Zhang
cs.AI
Samenvatting
De menselijke cognitie van nieuwe concepten is van nature een streamingproces: we herkennen continu nieuwe objecten of identiteiten en werken onze herinneringen in de loop van de tijd bij. Huidige multimodale personalisatiemethoden zijn echter grotendeels beperkt tot statische beelden of offline video's. Dit verbrekt de continue visuele input van directe feedback uit de echte wereld, wat hun vermogen beperkt om de real-time, interactieve gepersonaliseerde reacties te bieden die essentieel zijn voor toekomstige AI-assistenten. Om deze kloof te overbruggen, stellen we eerst de nieuwe taak van Gepersonaliseerd Streaming Video Begrip (PSVU) voor en definiëren deze formeel. Om onderzoek in deze nieuwe richting te vergemakkelijken, introduceren we PEARL-Bench, de eerste uitgebreide benchmark die specifiek is ontworpen om deze uitdagende setting te evalueren. Het beoordeelt het vermogen van een model om te reageren op gepersonaliseerde concepten op exacte tijdstempels in twee modi: (1) Frame-niveau, gericht op een specifieke persoon of object in discrete frames, en (2) een nieuw Video-niveau, gericht op gepersonaliseerde acties die zich ontvouwen over continue frames. PEARL-Bench omvat 132 unieke video's en 2.173 fijnmazige annotaties met precieze tijdstempels. Conceptdiversiteit en annotatiekwaliteit worden strikt gewaarborgd door een gecombineerde pijplijn van automatische generatie en menselijke verificatie. Om deze uitdagende nieuwe setting aan te pakken, stellen we verder PEARL voor, een plug-and-play, trainingsvrije strategie die dient als een sterke basislijn. Uitgebreide evaluaties over 8 offline en online modellen tonen aan dat PEARL state-of-the-art prestaties bereikt. Opmerkelijk is dat het consistente PSVU-verbeteringen oplevert wanneer toegepast op 3 verschillende architecturen, wat bewijst dat het een zeer effectieve en robuuste strategie is. We hopen dat dit werk de personalisatie van vision-language modellen (VLM) bevordert en verder onderzoek naar streaming gepersonaliseerde AI-assistenten inspireert. Code is beschikbaar op https://github.com/Yuanhong-Zheng/PEARL.
English
Human cognition of new concepts is inherently a streaming process: we continuously recognize new objects or identities and update our memories over time. However, current multimodal personalization methods are largely limited to static images or offline videos. This disconnects continuous visual input from instant real-world feedback, limiting their ability to provide the real-time, interactive personalized responses essential for future AI assistants. To bridge this gap, we first propose and formally define the novel task of Personalized Streaming Video Understanding (PSVU). To facilitate research in this new direction, we introduce PEARL-Bench, the first comprehensive benchmark designed specifically to evaluate this challenging setting. It evaluates a model's ability to respond to personalized concepts at exact timestamps under two modes: (1) Frame-level, focusing on a specific person or object in discrete frames, and (2) a novel Video-level, focusing on personalized actions unfolding across continuous frames. PEARL-Bench comprises 132 unique videos and 2,173 fine-grained annotations with precise timestamps. Concept diversity and annotation quality are strictly ensured through a combined pipeline of automated generation and human verification. To tackle this challenging new setting, we further propose PEARL, a plug-and-play, training-free strategy that serves as a strong baseline. Extensive evaluations across 8 offline and online models demonstrate that PEARL achieves state-of-the-art performance. Notably, it brings consistent PSVU improvements when applied to 3 distinct architectures, proving to be a highly effective and robust strategy. We hope this work advances vision-language model (VLM) personalization and inspires further research into streaming personalized AI assistants. Code is available at https://github.com/Yuanhong-Zheng/PEARL.