PiTe: Pixel-Temporale Afstemming voor Grote Video-Taalmodel
PiTe: Pixel-Temporal Alignment for Large Video-Language Model
September 11, 2024
Auteurs: Yang Liu, Pengxiang Ding, Siteng Huang, Min Zhang, Han Zhao, Donglin Wang
cs.AI
Samenvatting
Aangewakkerd door de golf van Grote Taalmodellen (LLM's) zijn Grote Visueel-Taalmodellen (LVLM's) naar voren gekomen als een cruciale vooruitgang, waarbij het gat tussen beeld en tekst wordt overbrugd. Echter, video maakt het uitdagend voor LVLM's om adequaat te presteren vanwege de complexiteit van de relatie tussen taal en ruimtelijk-temporele gegevensstructuur. Recentelijk richten Grote Video-Taalmodellen (LVidLM's) kenmerken van statische visuele gegevens zoals beeld uit naar de latente ruimte van taalkenmerken, door algemene multimodale taken uit te voeren om de capaciteiten van LLM's voldoende te benutten. In dit artikel verkennen we een fijnmazige uitlijningsbenadering via objecttraject voor verschillende modaliteiten over zowel ruimtelijke als temporele dimensies tegelijk. Daarom stellen we een nieuw LVidLM voor door middel van trajectgeleide Pixel-Temporele Uitlijning, genaamd PiTe, dat veelbelovende toepasbare model eigenschappen vertoont. Om fijnmazige video-taaluitlijning te bereiken, stellen we een multimodaal vooraf trainingsdataset PiTe-143k samen, waarbij de dataset bewegingstrajecten op pixelniveau bevat voor alle individuele objecten die zowel in de video als de onderschrift verschijnen en genoemd worden, via ons automatische annotatiepijplijn. Ondertussen toont PiTe verbazingwekkende capaciteiten op tal van video-gerelateerde multimodale taken door de state-of-the-art methoden ver voorbij te streven.
English
Fueled by the Large Language Models (LLMs) wave, Large Visual-Language Models
(LVLMs) have emerged as a pivotal advancement, bridging the gap between image
and text. However, video making it challenging for LVLMs to perform adequately
due to the complexity of the relationship between language and spatial-temporal
data structure. Recent Large Video-Language Models (LVidLMs) align feature of
static visual data like image into latent space of language feature, by general
multi-modal tasks to leverage abilities of LLMs sufficiently. In this paper, we
explore fine-grained alignment approach via object trajectory for different
modalities across both spatial and temporal dimensions simultaneously. Thus, we
propose a novel LVidLM by trajectory-guided Pixel-Temporal Alignment, dubbed
PiTe, that exhibits promising applicable model property. To achieve
fine-grained video-language alignment, we curate a multi-modal pre-training
dataset PiTe-143k, the dataset provision of moving trajectories in pixel level
for all individual objects, that appear and mention in the video and caption
both, by our automatic annotation pipeline. Meanwhile, PiTe demonstrates
astounding capabilities on myriad video-related multi-modal tasks through beat
the state-of-the-art methods by a large margin.Summary
AI-Generated Summary