PiTe: Allineamento Pixel-Temporale per Grandi Modelli Video-Linguaggio
PiTe: Pixel-Temporal Alignment for Large Video-Language Model
September 11, 2024
Autori: Yang Liu, Pengxiang Ding, Siteng Huang, Min Zhang, Han Zhao, Donglin Wang
cs.AI
Abstract
Alimentati dalla diffusione dei Grandi Modelli di Linguaggio (LLM), i Grandi Modelli Visivo-Linguistici (LVLM) sono emersi come un avanzamento cruciale, colmando il divario tra immagini e testo. Tuttavia, i video rendono difficile per i LVLM esibirsi adeguatamente a causa della complessità della relazione tra linguaggio e struttura dati spazio-temporale. I recenti Grandi Modelli Video-Linguistici (LVidLM) allineano le caratteristiche dei dati visivi statici come le immagini nello spazio latente delle caratteristiche linguistiche, sfruttando compiti multimodali generali per sfruttare adeguatamente le capacità dei LLM. In questo articolo, esploriamo un approccio di allineamento dettagliato tramite traiettoria degli oggetti per diverse modalità attraverso entrambe le dimensioni spaziali e temporali contemporaneamente. Pertanto, proponiamo un nuovo LVidLM guidato dalla traiettoria con Allineamento Pixel-Temporale, denominato PiTe, che mostra una promettente proprietà di modello applicabile. Per raggiungere un allineamento dettagliato tra video e linguaggio, curiamo un dataset di pre-training multimodale PiTe-143k, che fornisce traiettorie in movimento a livello di pixel per tutti gli oggetti individuali che appaiono e vengono menzionati sia nel video che nella didascalia, tramite il nostro pipeline di annotazione automatica. Nel frattempo, PiTe dimostra capacità sorprendenti su una miriade di compiti multimodali correlati ai video, superando di gran lunga i metodi all'avanguardia.
English
Fueled by the Large Language Models (LLMs) wave, Large Visual-Language Models
(LVLMs) have emerged as a pivotal advancement, bridging the gap between image
and text. However, video making it challenging for LVLMs to perform adequately
due to the complexity of the relationship between language and spatial-temporal
data structure. Recent Large Video-Language Models (LVidLMs) align feature of
static visual data like image into latent space of language feature, by general
multi-modal tasks to leverage abilities of LLMs sufficiently. In this paper, we
explore fine-grained alignment approach via object trajectory for different
modalities across both spatial and temporal dimensions simultaneously. Thus, we
propose a novel LVidLM by trajectory-guided Pixel-Temporal Alignment, dubbed
PiTe, that exhibits promising applicable model property. To achieve
fine-grained video-language alignment, we curate a multi-modal pre-training
dataset PiTe-143k, the dataset provision of moving trajectories in pixel level
for all individual objects, that appear and mention in the video and caption
both, by our automatic annotation pipeline. Meanwhile, PiTe demonstrates
astounding capabilities on myriad video-related multi-modal tasks through beat
the state-of-the-art methods by a large margin.Summary
AI-Generated Summary