PEARL: Modello Personalizzato per la Comprensione di Video in Streaming

Abstract

La cognizione umana di nuovi concetti è intrinsecamente un processo in streaming: riconosciamo continuamente nuovi oggetti o identità e aggiorniamo i nostri ricordi nel tempo. Tuttavia, gli attuali metodi di personalizzazione multimodale sono largamente limitati a immagini statiche o video offline. Ciò disconnette l'input visivo continuo dal feedback istantaneo del mondo reale, limitando la loro capacità di fornire risposte personalizzate in tempo reale e interattive, essenziali per i futuri assistenti IA. Per colmare questa lacuna, proponiamo e definiamo formalmente per primi il nuovo compito di Comprensione Personalizzata di Video in Streaming (PSVU). Per facilitare la ricerca in questa nuova direzione, introduciamo PEARL-Bench, il primo benchmark completo progettato specificamente per valutare questa impegnativa impostazione. Esso valuta la capacità di un modello di rispondere a concetti personalizzati in timestamp precisi secondo due modalità: (1) a livello di fotogramma, concentrandosi su una persona o un oggetto specifico in fotogrammi discreti, e (2) una nuova modalità a livello di video, che si concentra su azioni personalizzate che si svolgono attraverso fotogrammi continui. PEARL-Bench comprende 132 video unici e 2.173 annotazioni granulari con timestamp precisi. La diversità dei concetti e la qualità delle annotazioni sono rigorosamente garantite attraverso una pipeline combinata di generazione automatica e verifica umana. Per affrontare questa nuova e impegnativa impostazione, proponiamo ulteriormente PEARL, una strategia plug-and-play, senza addestramento, che funge da solida baseline. Valutazioni estese su 8 modelli offline e online dimostrano che PEARL raggiunge prestazioni all'avanguardia. Notevolmente, apporta miglioramenti PSVU consistenti quando applicato a 3 diverse architetture, dimostrandosi una strategia altamente efficace e robusta. Speriamo che questo lavoro avanzi la personalizzazione dei modelli visione-linguaggio (VLM) e ispiri ulteriori ricerche su assistenti IA personalizzati in streaming. Il codice è disponibile all'indirizzo https://github.com/Yuanhong-Zheng/PEARL.

English

Human cognition of new concepts is inherently a streaming process: we continuously recognize new objects or identities and update our memories over time. However, current multimodal personalization methods are largely limited to static images or offline videos. This disconnects continuous visual input from instant real-world feedback, limiting their ability to provide the real-time, interactive personalized responses essential for future AI assistants. To bridge this gap, we first propose and formally define the novel task of Personalized Streaming Video Understanding (PSVU). To facilitate research in this new direction, we introduce PEARL-Bench, the first comprehensive benchmark designed specifically to evaluate this challenging setting. It evaluates a model's ability to respond to personalized concepts at exact timestamps under two modes: (1) Frame-level, focusing on a specific person or object in discrete frames, and (2) a novel Video-level, focusing on personalized actions unfolding across continuous frames. PEARL-Bench comprises 132 unique videos and 2,173 fine-grained annotations with precise timestamps. Concept diversity and annotation quality are strictly ensured through a combined pipeline of automated generation and human verification. To tackle this challenging new setting, we further propose PEARL, a plug-and-play, training-free strategy that serves as a strong baseline. Extensive evaluations across 8 offline and online models demonstrate that PEARL achieves state-of-the-art performance. Notably, it brings consistent PSVU improvements when applied to 3 distinct architectures, proving to be a highly effective and robust strategy. We hope this work advances vision-language model (VLM) personalization and inspires further research into streaming personalized AI assistants. Code is available at https://github.com/Yuanhong-Zheng/PEARL.

PEARL: Modello Personalizzato per la Comprensione di Video in Streaming

PEARL: Personalized Streaming Video Understanding Model

Abstract

Support