PEARL: Персонализированная модель для потокового понимания видео
PEARL: Personalized Streaming Video Understanding Model
March 20, 2026
Авторы: Yuanhong Zheng, Ruichuan An, Xiaopeng Lin, Yuxing Liu, Sihan Yang, Huanyu Zhang, Haodong Li, Qintong Zhang, Renrui Zhang, Guopeng Li, Yifan Zhang, Yuheng Li, Wentao Zhang
cs.AI
Аннотация
Познание человеком новых концепций по своей природе является потоковым процессом: мы непрерывно распознаем новые объекты или идентичности и со временем обновляем наши воспоминания. Однако современные методы мультимодальной персонализации в основном ограничены статичными изображениями или офлайн-видео. Это разрывает связь между непрерывным визуальным входом и мгновенной обратной связью из реального мира, ограничивая их способность обеспечивать персонализированные реакции в реальном времени, необходимые для будущих ИИ-ассистентов. Чтобы устранить этот разрыв, мы впервые предлагаем и формально определяем новую задачу персонализированного потокового понимания видео (PSVU). Для содействия исследованиям в этом новом направлении мы представляем PEARL-Bench — первый комплексный бенчмарк, специально разработанный для оценки этой сложной задачи. Он оценивает способность модели реагировать на персонализированные концепции в точные временные метки в двух режимах: (1) покадровом, фокусирующемся на конкретном человеке или объекте в дискретных кадрах, и (2) новом видеорежиме, фокусирующемся на персонализированных действиях, разворачивающихся в непрерывных кадрах. PEARL-Bench включает 132 уникальных видео и 2173 детальных аннотации с точными временными метками. Разнообразие концепций и качество аннотаций строго обеспечиваются за счет комбинированного пайплайна автоматической генерации и человеческой проверки. Для решения этой сложной новой задачи мы дополнительно предлагаем PEARL — подключаемую стратегию, не требующую обучения, которая служит сильным базовым уровнем. Обширные оценки восьми офлайн- и онлайн-моделей демонстрируют, что PEARL достигает наилучшей производительности. Примечательно, что она обеспечивает последовательное улучшение PSVU при применении к трем различным архитектурам, доказывая свою высокую эффективность и надежность. Мы надеемся, что эта работа продвинет персонализацию моделей «визуальный язык» (VLM) и вдохновит на дальнейшие исследования в области потоковых персонализированных ИИ-ассистентов. Код доступен по адресу https://github.com/Yuanhong-Zheng/PEARL.
English
Human cognition of new concepts is inherently a streaming process: we continuously recognize new objects or identities and update our memories over time. However, current multimodal personalization methods are largely limited to static images or offline videos. This disconnects continuous visual input from instant real-world feedback, limiting their ability to provide the real-time, interactive personalized responses essential for future AI assistants. To bridge this gap, we first propose and formally define the novel task of Personalized Streaming Video Understanding (PSVU). To facilitate research in this new direction, we introduce PEARL-Bench, the first comprehensive benchmark designed specifically to evaluate this challenging setting. It evaluates a model's ability to respond to personalized concepts at exact timestamps under two modes: (1) Frame-level, focusing on a specific person or object in discrete frames, and (2) a novel Video-level, focusing on personalized actions unfolding across continuous frames. PEARL-Bench comprises 132 unique videos and 2,173 fine-grained annotations with precise timestamps. Concept diversity and annotation quality are strictly ensured through a combined pipeline of automated generation and human verification. To tackle this challenging new setting, we further propose PEARL, a plug-and-play, training-free strategy that serves as a strong baseline. Extensive evaluations across 8 offline and online models demonstrate that PEARL achieves state-of-the-art performance. Notably, it brings consistent PSVU improvements when applied to 3 distinct architectures, proving to be a highly effective and robust strategy. We hope this work advances vision-language model (VLM) personalization and inspires further research into streaming personalized AI assistants. Code is available at https://github.com/Yuanhong-Zheng/PEARL.