Aprendizado Fatorado para Modelos de Vídeo e Linguagem Temporalmente Fundamentados

Resumo

Os modelos recentes de vídeo e linguagem têm demonstrado grande potencial para a compreensão de vídeos, mas ainda lutam com uma localização temporal precisa para a percepção a nível de evento. Observamos que dois fatores principais na compreensão de vídeo (ou seja, a localização temporal e a resposta textual) formam uma hierarquia lógica: uma localização precisa de evidências temporais estabelece a base para uma resposta textual confiável. No entanto, os trabalhos existentes normalmente lidam com estas duas tarefas de forma acoplada, sem uma estrutura lógica clara, levando a objetivos subóptimos. Abordamos esta questão a partir de uma perspetiva de aprendizagem fatorizada. Primeiro, propomos o D²VLM, uma estrutura que desacopla a aprendizagem destas duas tarefas, ao mesmo tempo que enfatiza a sua dependência inerente. Adotamos um paradigma de "localizar primeiro, depois responder com referência a evidências" e introduzimos *tokens* de evidência para a localização de evidências, que enfatizam a captura semântica visual a nível de evento, indo além do foco na representação de *timestamps* presente nos trabalhos existentes. Para facilitar ainda mais a aprendizagem destas duas tarefas, introduzimos um novo algoritmo de otimização de preferências fatorizadas (FPO). Ao contrário da otimização de preferências padrão, o FPO incorpora explicitamente a modelação probabilística de localização temporal no objetivo de otimização, permitindo a aprendizagem por preferências tanto para a localização temporal como para a resposta textual. Também construímos um conjunto de dados sintético para colmatar a falta de conjuntos de dados adequados para a aprendizagem de preferências fatorizadas com localização temporal explícita. Experiências em várias tarefas demonstram a clara vantagem da nossa abordagem. O nosso código-fonte está disponível em https://github.com/nusnlp/d2vlm.

English

Recent video-language models have shown great potential for video understanding, but still struggle with accurate temporal grounding for event-level perception. We observe that two main factors in video understanding (i.e., temporal grounding and textual response) form a logical hierarchy: accurate temporal evidence grounding lays the foundation for reliable textual response. However, existing works typically handle these two tasks in a coupled manner without a clear logical structure, leading to sub-optimal objectives. We address this from a factorized learning perspective. We first propose D^2VLM, a framework that decouples the learning of these two tasks while also emphasizing their inherent dependency. We adopt a "grounding then answering with evidence referencing" paradigm and introduce evidence tokens for evidence grounding, which emphasize event-level visual semantic capture beyond the focus on timestamp representation in existing works. To further facilitate the learning of these two tasks, we introduce a novel factorized preference optimization (FPO) algorithm. Unlike standard preference optimization, FPO explicitly incorporates probabilistic temporal grounding modeling into the optimization objective, enabling preference learning for both temporal grounding and textual response. We also construct a synthetic dataset to address the lack of suitable datasets for factorized preference learning with explicit temporal grounding. Experiments on various tasks demonstrate the clear advantage of our approach. Our source code is available at https://github.com/nusnlp/d2vlm.

Aprendizado Fatorado para Modelos de Vídeo e Linguagem Temporalmente Fundamentados

Factorized Learning for Temporally Grounded Video-Language Models

Resumo

Support