PEARL : Modèle de Compréhension Personnalisée de la Vidéo en Flux

Résumé

La cognition humaine des nouveaux concepts est intrinsèquement un processus continu : nous reconnaissons continuellement de nouveaux objets ou identités et mettons à jour nos mémoires au fil du temps. Cependant, les méthodes actuelles de personnalisation multimodale se limitent largement aux images statiques ou aux vidéos hors ligne. Cette dissociation entre l'entrée visuelle continue et la rétroaction instantanée du monde réel limite leur capacité à fournir les réponses personnalisées interactives en temps réel, essentielles pour les futurs assistants IA. Pour combler cette lacune, nous proposons et définissons formellement la nouvelle tâche de Compréhension Personnalisée des Vidéos en Flux Continu (PSVU). Pour faciliter la recherche dans cette nouvelle direction, nous présentons PEARL-Bench, le premier benchmark complet conçu spécifiquement pour évaluer ce cadre exigeant. Il évalue la capacité d'un modèle à répondre à des concepts personnalisés à des horodatages précis selon deux modes : (1) Niveau image, centré sur une personne ou un objet spécifique dans des images discrètes, et (2) un nouveau Niveau vidéo, centré sur des actions personnalisées se déroulant sur des images continues. PEARL-Bench comprend 132 vidéos uniques et 2 173 annotations granulaires avec des horodatages précis. La diversité des concepts et la qualité des annotations sont strictement garanties par un pipeline combinant génération automatique et vérification humaine. Pour relever les défis de ce nouveau cadre, nous proposons en outre PEARL, une stratégie prête à l'emploi, sans apprentissage, qui constitue une base de référence solide. Des évaluations approfondies sur 8 modèles hors ligne et en ligne démontrent que PEARL atteint des performances de pointe. Notamment, elle apporte des améliorations PSVU constantes lorsqu'elle est appliquée à 3 architectures distinctes, prouvant son efficacité et sa robustesse. Nous espérons que ces travaux feront progresser la personnalisation des modèles vision-langage (VLM) et inspireront des recherches supplémentaires sur les assistants IA personnalisés en flux continu. Le code est disponible à l'adresse https://github.com/Yuanhong-Zheng/PEARL.

English

Human cognition of new concepts is inherently a streaming process: we continuously recognize new objects or identities and update our memories over time. However, current multimodal personalization methods are largely limited to static images or offline videos. This disconnects continuous visual input from instant real-world feedback, limiting their ability to provide the real-time, interactive personalized responses essential for future AI assistants. To bridge this gap, we first propose and formally define the novel task of Personalized Streaming Video Understanding (PSVU). To facilitate research in this new direction, we introduce PEARL-Bench, the first comprehensive benchmark designed specifically to evaluate this challenging setting. It evaluates a model's ability to respond to personalized concepts at exact timestamps under two modes: (1) Frame-level, focusing on a specific person or object in discrete frames, and (2) a novel Video-level, focusing on personalized actions unfolding across continuous frames. PEARL-Bench comprises 132 unique videos and 2,173 fine-grained annotations with precise timestamps. Concept diversity and annotation quality are strictly ensured through a combined pipeline of automated generation and human verification. To tackle this challenging new setting, we further propose PEARL, a plug-and-play, training-free strategy that serves as a strong baseline. Extensive evaluations across 8 offline and online models demonstrate that PEARL achieves state-of-the-art performance. Notably, it brings consistent PSVU improvements when applied to 3 distinct architectures, proving to be a highly effective and robust strategy. We hope this work advances vision-language model (VLM) personalization and inspires further research into streaming personalized AI assistants. Code is available at https://github.com/Yuanhong-Zheng/PEARL.

PEARL : Modèle de Compréhension Personnalisée de la Vidéo en Flux

PEARL: Personalized Streaming Video Understanding Model

Résumé

Support