PiTe: Alineación Píxel-Temporal para Modelos de Lenguaje de Video Grandes
PiTe: Pixel-Temporal Alignment for Large Video-Language Model
September 11, 2024
Autores: Yang Liu, Pengxiang Ding, Siteng Huang, Min Zhang, Han Zhao, Donglin Wang
cs.AI
Resumen
Impulsados por la ola de Modelos de Lenguaje Grandes (LLMs), los Modelos de Lenguaje Visual Grandes (LVLMs) han surgido como un avance fundamental, cerrando la brecha entre la imagen y el texto. Sin embargo, los videos representan un desafío para los LVLMs al tener que lidiar con la complejidad de la relación entre el lenguaje y la estructura de datos espaciales-temporales. Los recientes Modelos de Video-Lenguaje Grandes (LVidLMs) alinean características de datos visuales estáticos como imágenes en un espacio latente de características de lenguaje, mediante tareas multimodales generales para aprovechar adecuadamente las capacidades de los LLMs. En este documento, exploramos un enfoque de alineación detallada a través de trayectorias de objetos para diferentes modalidades en dimensiones espaciales y temporales simultáneamente. Por lo tanto, proponemos un nuevo LVidLM mediante la Alineación Pixel-Temporal guiada por trayectorias, denominado PiTe, que muestra una propiedad de modelo aplicable prometedora. Para lograr una alineación detallada de video-lenguaje, creamos un conjunto de datos de pre-entrenamiento multimodal PiTe-143k, que proporciona trayectorias en movimiento a nivel de píxel para todos los objetos individuales que aparecen y se mencionan tanto en el video como en la leyenda, mediante nuestro pipeline de anotación automática. Mientras tanto, PiTe demuestra capacidades asombrosas en una variedad de tareas multimodales relacionadas con videos superando ampliamente a los métodos de vanguardia.
English
Fueled by the Large Language Models (LLMs) wave, Large Visual-Language Models
(LVLMs) have emerged as a pivotal advancement, bridging the gap between image
and text. However, video making it challenging for LVLMs to perform adequately
due to the complexity of the relationship between language and spatial-temporal
data structure. Recent Large Video-Language Models (LVidLMs) align feature of
static visual data like image into latent space of language feature, by general
multi-modal tasks to leverage abilities of LLMs sufficiently. In this paper, we
explore fine-grained alignment approach via object trajectory for different
modalities across both spatial and temporal dimensions simultaneously. Thus, we
propose a novel LVidLM by trajectory-guided Pixel-Temporal Alignment, dubbed
PiTe, that exhibits promising applicable model property. To achieve
fine-grained video-language alignment, we curate a multi-modal pre-training
dataset PiTe-143k, the dataset provision of moving trajectories in pixel level
for all individual objects, that appear and mention in the video and caption
both, by our automatic annotation pipeline. Meanwhile, PiTe demonstrates
astounding capabilities on myriad video-related multi-modal tasks through beat
the state-of-the-art methods by a large margin.Summary
AI-Generated Summary