ChatPaper.aiChatPaper

Quando e O Quê: VideoLLM Baseado em Difusão com Segmentação Consciente de Entidades para Compreensão de Vídeos Longos

When and What: Diffusion-Grounded VideoLLM with Entity Aware Segmentation for Long Video Understanding

August 21, 2025
Autores: Pengcheng Fang, Yuxia Chen, Rui Guo
cs.AI

Resumo

Compreender vídeos vai além de responder a perguntas abertas; exige a capacidade de identificar quando os eventos ocorrem e como as entidades interagem ao longo do tempo. Embora os recentes LLMs de vídeo tenham alcançado progressos notáveis no raciocínio holístico, eles ainda são limitados na percepção temporal: os timestamps são codificados apenas implicitamente, as características em nível de quadro são fracas em capturar continuidade, e o alinhamento entre linguagem e visão frequentemente se desvia das entidades de interesse. Neste artigo, apresentamos o Grounded VideoDiT, um LLM de vídeo projetado para superar essas limitações por meio de três inovações principais. Primeiro, um codificador de Latente Temporal de Difusão (DTL) aumenta a sensibilidade aos limites e mantém a consistência temporal. Segundo, representações fundamentadas em objetos vinculam explicitamente as entidades consultadas a evidências visuais localizadas, fortalecendo o alinhamento. Terceiro, um esquema de tokens mistos com tokens temporais discretos fornece modelagem explícita de timestamps, permitindo raciocínio temporal de alta granularidade. Juntas, essas características equipam o Grounded VideoDiT com capacidades robustas de fundamentação, conforme validado por resultados de ponta nos benchmarks Charades STA, NExT GQA e múltiplos VideoQA.
English
Understanding videos requires more than answering open ended questions, it demands the ability to pinpoint when events occur and how entities interact across time. While recent Video LLMs have achieved remarkable progress in holistic reasoning, they remain coarse in temporal perception: timestamps are encoded only implicitly, frame level features are weak in capturing continuity, and language vision alignment often drifts from the entities of interest. In this paper, we present Grounded VideoDiT, a Video LLM designed to overcome these limitations by introducing three key innovations. First, a Diffusion Temporal Latent (DTL) encoder enhances boundary sensitivity and maintains temporal consistency. Second, object grounded representations explicitly bind query entities to localized visual evidence, strengthening alignment. Third, a mixed token scheme with discrete temporal tokens provides explicit timestamp modeling, enabling fine grained temporal reasoning. Together, these designs equip Grounded VideoDiT with robust grounding capabilities, as validated by state of the art results on Charades STA, NExT GQA, and multiple VideoQA benchmarks.
PDF32August 22, 2025