PEARL: Personalisiertes Modell zum Verständnis von Streaming-Videos

Zusammenfassung

Die menschliche Kognition neuer Konzepte ist von Natur aus ein Streaming-Prozess: Wir erkennen kontinuierlich neue Objekte oder Identitäten und aktualisieren unsere Erinnerungen im Laufe der Zeit. Allerdings sind aktuelle multimodale Personalisierungsmethoden weitgehend auf statische Bilder oder Offline-Videos beschränkt. Dies trennt den kontinuierlichen visuellen Input von sofortigem Echtzeit-Feedback aus der realen Welt und schränkt ihre Fähigkeit ein, die für zukünftige KI-Assistenten essenziellen Echtzeit- und interaktiven personalisierten Antworten zu liefern. Um diese Lücke zu schließen, schlagen wir zunächst die neuartige Aufgabe des Personalisierten Streaming-Videoverständnisses (Personalized Streaming Video Understanding, PSVU) vor und definieren sie formal. Um die Forschung in dieser neuen Richtung zu fördern, stellen wir PEARL-Bench vor, den ersten umfassenden Benchmark, der speziell zur Evaluierung dieser anspruchsvollen Aufgabe entwickelt wurde. Er bewertet die Fähigkeit eines Modells, zu personalisierten Konzepten zu exakten Zeitstempeln in zwei Modi zu antworten: (1) Frame-Level, das sich auf eine bestimmte Person oder ein Objekt in diskreten Frames konzentriert, und (2) ein neuartiges Video-Level, das sich auf personalisierte Aktionen konzentriert, die sich über kontinuierliche Frames hinweg entfalten. PEARL-Bench umfasst 132 einzigartige Videos und 2.173 fein granulare Annotationen mit präzisen Zeitstempeln. Konzeptvielfalt und Annotationsqualität werden durch eine kombinierte Pipeline aus automatischer Generierung und menschlicher Verifizierung streng sichergestellt. Um diese herausfordernde neue Aufgabe zu bewältigen, schlagen wir weiterhin PEARL vor, eine Plug-and-Play, trainingsfreie Strategie, die als starke Baseline dient. Umfangreiche Evaluationen über 8 Offline- und Online-Modelle hinweg zeigen, dass PEARL state-of-the-art Leistung erzielt. Bemerkenswerterweise bringt es konsistente PSVU-Verbesserungen, wenn es auf 3 verschiedene Architekturen angewendet wird, und erweist sich als hochwirksame und robuste Strategie. Wir hoffen, dass diese Arbeit die Personalisierung von Vision-Language-Modellen (VLM) voranbringt und weitere Forschung zu streamenden personalisierten KI-Assistenten inspiriert. Code ist verfügbar unter https://github.com/Yuanhong-Zheng/PEARL.

English

Human cognition of new concepts is inherently a streaming process: we continuously recognize new objects or identities and update our memories over time. However, current multimodal personalization methods are largely limited to static images or offline videos. This disconnects continuous visual input from instant real-world feedback, limiting their ability to provide the real-time, interactive personalized responses essential for future AI assistants. To bridge this gap, we first propose and formally define the novel task of Personalized Streaming Video Understanding (PSVU). To facilitate research in this new direction, we introduce PEARL-Bench, the first comprehensive benchmark designed specifically to evaluate this challenging setting. It evaluates a model's ability to respond to personalized concepts at exact timestamps under two modes: (1) Frame-level, focusing on a specific person or object in discrete frames, and (2) a novel Video-level, focusing on personalized actions unfolding across continuous frames. PEARL-Bench comprises 132 unique videos and 2,173 fine-grained annotations with precise timestamps. Concept diversity and annotation quality are strictly ensured through a combined pipeline of automated generation and human verification. To tackle this challenging new setting, we further propose PEARL, a plug-and-play, training-free strategy that serves as a strong baseline. Extensive evaluations across 8 offline and online models demonstrate that PEARL achieves state-of-the-art performance. Notably, it brings consistent PSVU improvements when applied to 3 distinct architectures, proving to be a highly effective and robust strategy. We hope this work advances vision-language model (VLM) personalization and inspires further research into streaming personalized AI assistants. Code is available at https://github.com/Yuanhong-Zheng/PEARL.

PEARL: Personalisiertes Modell zum Verständnis von Streaming-Videos

PEARL: Personalized Streaming Video Understanding Model

Zusammenfassung

Support