ChatPaper.aiChatPaper

PiTe: Alinhamento Pixel-Temporal para Modelos de Linguagem de Vídeo de Grande Escala

PiTe: Pixel-Temporal Alignment for Large Video-Language Model

September 11, 2024
Autores: Yang Liu, Pengxiang Ding, Siteng Huang, Min Zhang, Han Zhao, Donglin Wang
cs.AI

Resumo

Impulsionados pela onda dos Grandes Modelos de Linguagem (LLMs), os Grandes Modelos de Linguagem Visual (LVLMs) surgiram como um avanço fundamental, preenchendo a lacuna entre imagem e texto. No entanto, a criação de vídeos torna desafiador para os LVLMs desempenharem adequadamente devido à complexidade da relação entre linguagem e estrutura de dados espaciais-temporais. Modelos Recentes de Linguagem Visual em Vídeo (LVidLMs) alinham características de dados visuais estáticos, como imagem, ao espaço latente de características de linguagem, por meio de tarefas multimodais gerais para aproveitar adequadamente as habilidades dos LLMs. Neste artigo, exploramos uma abordagem de alinhamento detalhado por meio de trajetória de objetos para diferentes modalidades em ambas as dimensões espaciais e temporais simultaneamente. Assim, propomos um novo LVidLM por meio do Alinhamento Pixel-Temporal guiado por trajetória, denominado PiTe, que apresenta uma propriedade de modelo aplicável promissora. Para alcançar o alinhamento detalhado de vídeo-linguagem, criamos um conjunto de dados de pré-treinamento multimodal PiTe-143k, que fornece trajetórias em movimento no nível de pixel para todos os objetos individuais que aparecem e são mencionados tanto no vídeo quanto na legenda, por meio de nosso pipeline de anotação automática. Enquanto isso, o PiTe demonstra capacidades surpreendentes em uma infinidade de tarefas multimodais relacionadas a vídeos, superando significativamente os métodos de ponta.
English
Fueled by the Large Language Models (LLMs) wave, Large Visual-Language Models (LVLMs) have emerged as a pivotal advancement, bridging the gap between image and text. However, video making it challenging for LVLMs to perform adequately due to the complexity of the relationship between language and spatial-temporal data structure. Recent Large Video-Language Models (LVidLMs) align feature of static visual data like image into latent space of language feature, by general multi-modal tasks to leverage abilities of LLMs sufficiently. In this paper, we explore fine-grained alignment approach via object trajectory for different modalities across both spatial and temporal dimensions simultaneously. Thus, we propose a novel LVidLM by trajectory-guided Pixel-Temporal Alignment, dubbed PiTe, that exhibits promising applicable model property. To achieve fine-grained video-language alignment, we curate a multi-modal pre-training dataset PiTe-143k, the dataset provision of moving trajectories in pixel level for all individual objects, that appear and mention in the video and caption both, by our automatic annotation pipeline. Meanwhile, PiTe demonstrates astounding capabilities on myriad video-related multi-modal tasks through beat the state-of-the-art methods by a large margin.

Summary

AI-Generated Summary

PDF142November 16, 2024