PEARL: Modelo Personalizado para Compreensão de Vídeos em Streaming

Resumo

A cognição humana de novos conceitos é inerentemente um processo contínuo: reconhecemos continuamente novos objetos ou identidades e atualizamos nossas memórias ao longo do tempo. No entanto, os métodos atuais de personalização multimodal estão amplamente limitados a imagens estáticas ou vídeos offline. Isso desconecta a entrada visual contínua do feedback instantâneo do mundo real, limitando sua capacidade de fornecer respostas personalizadas interativas e em tempo real, essenciais para futuros assistentes de IA. Para preencher essa lacuna, propomos e definimos formalmente a nova tarefa de Compreensão de Vídeo em Fluxo Personalizado (PSVU). Para facilitar a pesquisa nessa nova direção, apresentamos o PEARL-Bench, o primeiro benchmark abrangente projetado especificamente para avaliar esse cenário desafiador. Ele avalia a capacidade de um modelo de responder a conceitos personalizados em carimbos de tempo exatos sob dois modos: (1) Nível de Frame, focando em uma pessoa ou objeto específico em frames discretos, e (2) um novo Nível de Vídeo, focando em ações personalizadas que se desenrolam em frames contínuos. O PEARL-Bench compreende 132 vídeos únicos e 2.173 anotações refinadas com carimbos de tempo precisos. A diversidade de conceitos e a qualidade da anotação são rigorosamente garantidas por meio de um pipeline combinado de geração automatizada e verificação humana. Para enfrentar esse novo e desafiador cenário, propomos ainda o PEARL, uma estratégia plug-and-play, sem necessidade de treinamento, que serve como uma linha de base sólida. Avaliações extensas em 8 modelos offline e online demonstram que o PEARL alcança desempenho de ponta. Notavelmente, ele traz melhorias consistentes de PSVU quando aplicado a 3 arquiteturas distintas, provando ser uma estratégia altamente eficaz e robusta. Esperamos que este trabalho avance a personalização de modelos de visão e linguagem (VLM) e inspire mais pesquisas sobre assistentes de IA personalizados em fluxo contínuo. O código está disponível em https://github.com/Yuanhong-Zheng/PEARL.

English

Human cognition of new concepts is inherently a streaming process: we continuously recognize new objects or identities and update our memories over time. However, current multimodal personalization methods are largely limited to static images or offline videos. This disconnects continuous visual input from instant real-world feedback, limiting their ability to provide the real-time, interactive personalized responses essential for future AI assistants. To bridge this gap, we first propose and formally define the novel task of Personalized Streaming Video Understanding (PSVU). To facilitate research in this new direction, we introduce PEARL-Bench, the first comprehensive benchmark designed specifically to evaluate this challenging setting. It evaluates a model's ability to respond to personalized concepts at exact timestamps under two modes: (1) Frame-level, focusing on a specific person or object in discrete frames, and (2) a novel Video-level, focusing on personalized actions unfolding across continuous frames. PEARL-Bench comprises 132 unique videos and 2,173 fine-grained annotations with precise timestamps. Concept diversity and annotation quality are strictly ensured through a combined pipeline of automated generation and human verification. To tackle this challenging new setting, we further propose PEARL, a plug-and-play, training-free strategy that serves as a strong baseline. Extensive evaluations across 8 offline and online models demonstrate that PEARL achieves state-of-the-art performance. Notably, it brings consistent PSVU improvements when applied to 3 distinct architectures, proving to be a highly effective and robust strategy. We hope this work advances vision-language model (VLM) personalization and inspires further research into streaming personalized AI assistants. Code is available at https://github.com/Yuanhong-Zheng/PEARL.

PEARL: Modelo Personalizado para Compreensão de Vídeos em Streaming

PEARL: Personalized Streaming Video Understanding Model

Resumo

Support