PiTe: Pixel-Temporale Ausrichtung für große Video-Sprachmodelle
PiTe: Pixel-Temporal Alignment for Large Video-Language Model
September 11, 2024
Autoren: Yang Liu, Pengxiang Ding, Siteng Huang, Min Zhang, Han Zhao, Donglin Wang
cs.AI
Zusammenfassung
Angetrieben von der Welle der Large Language Models (LLMs) sind Large Visual-Language Models (LVLMs) als entscheidender Fortschritt entstanden, der die Kluft zwischen Bild und Text überbrückt. Allerdings gestaltet es sich für LVLMs als herausfordernd, Videos angemessen zu verarbeiten, aufgrund der Komplexität der Beziehung zwischen Sprache und räumlich-zeitlicher Datenstruktur. Kürzlich entwickelte Large Video-Language Models (LVidLMs) richten Merkmale statischer visueller Daten wie Bilder in den latenten Raum von Sprachmerkmalen aus, indem sie allgemeine multimodale Aufgaben nutzen, um die Fähigkeiten von LLMs ausreichend zu nutzen. In diesem Paper erforschen wir einen feinkörnigen Ausrichtungsansatz über Objekttrajektorien für verschiedene Modalitäten über sowohl räumliche als auch zeitliche Dimensionen gleichzeitig. Daher schlagen wir ein neuartiges LVidLM durch die tragektoriengesteuerte Pixel-Zeit-Ausrichtung vor, genannt PiTe, das vielversprechende anwendbare Modelleigenschaften aufweist. Um eine feinkörnige Video-Sprach-Ausrichtung zu erreichen, erstellen wir einen multimodalen Vor-Trainingsdatensatz PiTe-143k, der die Bereitstellung von Bewegungstrajektorien auf Pixel-Ebene für alle einzelnen Objekte kuratiert, die sowohl im Video als auch in der Bildunterschrift erscheinen und erwähnt werden, durch unsere automatische Annotationspipeline. In der Zwischenzeit zeigt PiTe erstaunliche Fähigkeiten in zahlreichen video-bezogenen multimodalen Aufgaben, indem es die State-of-the-Art-Methoden bei weitem übertrifft.
English
Fueled by the Large Language Models (LLMs) wave, Large Visual-Language Models
(LVLMs) have emerged as a pivotal advancement, bridging the gap between image
and text. However, video making it challenging for LVLMs to perform adequately
due to the complexity of the relationship between language and spatial-temporal
data structure. Recent Large Video-Language Models (LVidLMs) align feature of
static visual data like image into latent space of language feature, by general
multi-modal tasks to leverage abilities of LLMs sufficiently. In this paper, we
explore fine-grained alignment approach via object trajectory for different
modalities across both spatial and temporal dimensions simultaneously. Thus, we
propose a novel LVidLM by trajectory-guided Pixel-Temporal Alignment, dubbed
PiTe, that exhibits promising applicable model property. To achieve
fine-grained video-language alignment, we curate a multi-modal pre-training
dataset PiTe-143k, the dataset provision of moving trajectories in pixel level
for all individual objects, that appear and mention in the video and caption
both, by our automatic annotation pipeline. Meanwhile, PiTe demonstrates
astounding capabilities on myriad video-related multi-modal tasks through beat
the state-of-the-art methods by a large margin.Summary
AI-Generated Summary