PEARL: Modelo Personalizado para la Comprensión de Vídeo en Streaming

Resumen

La cognición humana de nuevos conceptos es inherentemente un proceso continuo: reconocemos continuamente nuevos objetos o identidades y actualizamos nuestros recuerdos con el tiempo. Sin embargo, los métodos actuales de personalización multimodal se limitan en gran medida a imágenes estáticas o videos previamente grabados. Esto desconecta la entrada visual continua de la retroalimentación instantánea del mundo real, limitando su capacidad para proporcionar las respuestas personalizadas interactivas y en tiempo real esenciales para los futuros asistentes de IA. Para cerrar esta brecha, primero proponemos y definimos formalmente la novedosa tarea de Comprensión de Video Continuo Personalizado (PSVU, por sus siglas en inglés). Para facilitar la investigación en esta nueva dirección, presentamos PEARL-Bench, el primer benchmark integral diseñado específicamente para evaluar este entorno desafiante. Evalúa la capacidad de un modelo para responder a conceptos personalizados en marcas de tiempo exactas bajo dos modalidades: (1) a nivel de Fotograma, centrándose en una persona u objeto específico en fotogramas discretos, y (2) una novedosa modalidad a nivel de Video, centrándose en acciones personalizadas que se desarrollan a lo largo de fotogramas continuos. PEARL-Bench comprende 132 videos únicos y 2,173 anotaciones detalladas con marcas de tiempo precisas. La diversidad de conceptos y la calidad de las anotaciones se garantizan estrictamente mediante una canalización combinada de generación automatizada y verificación humana. Para abordar este nuevo y desafiante entorno, proponemos además PEARL, una estrategia plug-and-play que no requiere entrenamiento y que sirve como una base sólida. Evaluaciones exhaustivas en 8 modelos offline y online demuestran que PEARL logra un rendimiento de vanguardia. Notablemente, aporta mejoras consistentes en PSVU cuando se aplica a 3 arquitecturas distintas, demostrando ser una estrategia altamente efectiva y robusta. Esperamos que este trabajo impulse la personalización de los modelos de visión y lenguaje (VLM) e inspire further investigaciones hacia asistentes de IA personalizados de flujo continuo. El código está disponible en https://github.com/Yuanhong-Zheng/PEARL.

English

Human cognition of new concepts is inherently a streaming process: we continuously recognize new objects or identities and update our memories over time. However, current multimodal personalization methods are largely limited to static images or offline videos. This disconnects continuous visual input from instant real-world feedback, limiting their ability to provide the real-time, interactive personalized responses essential for future AI assistants. To bridge this gap, we first propose and formally define the novel task of Personalized Streaming Video Understanding (PSVU). To facilitate research in this new direction, we introduce PEARL-Bench, the first comprehensive benchmark designed specifically to evaluate this challenging setting. It evaluates a model's ability to respond to personalized concepts at exact timestamps under two modes: (1) Frame-level, focusing on a specific person or object in discrete frames, and (2) a novel Video-level, focusing on personalized actions unfolding across continuous frames. PEARL-Bench comprises 132 unique videos and 2,173 fine-grained annotations with precise timestamps. Concept diversity and annotation quality are strictly ensured through a combined pipeline of automated generation and human verification. To tackle this challenging new setting, we further propose PEARL, a plug-and-play, training-free strategy that serves as a strong baseline. Extensive evaluations across 8 offline and online models demonstrate that PEARL achieves state-of-the-art performance. Notably, it brings consistent PSVU improvements when applied to 3 distinct architectures, proving to be a highly effective and robust strategy. We hope this work advances vision-language model (VLM) personalization and inspires further research into streaming personalized AI assistants. Code is available at https://github.com/Yuanhong-Zheng/PEARL.

PEARL: Modelo Personalizado para la Comprensión de Vídeo en Streaming

PEARL: Personalized Streaming Video Understanding Model

Resumen

Support