ChatPaper.aiChatPaper

PiTe : Alignement Pixel-Temporel pour les Grands Modèles Vidéo-Langage

PiTe: Pixel-Temporal Alignment for Large Video-Language Model

September 11, 2024
Auteurs: Yang Liu, Pengxiang Ding, Siteng Huang, Min Zhang, Han Zhao, Donglin Wang
cs.AI

Résumé

Alimentés par la vague des grands modèles de langage (LLMs), les grands modèles visuel-langage (LVLMs) ont émergé comme une avancée cruciale, comblant le fossé entre l'image et le texte. Cependant, les vidéos rendent difficile la performance adéquate des LVLMs en raison de la complexité de la relation entre le langage et la structure des données spatiales-temporelles. Les récents grands modèles vidéo-langage (LVidLMs) alignent les caractéristiques des données visuelles statiques telles que les images dans l'espace latent des caractéristiques linguistiques, en généralisant les tâches multimodales pour exploiter suffisamment les capacités des LLMs. Dans cet article, nous explorons une approche d'alignement détaillé via la trajectoire d'objets pour différentes modalités à la fois dans les dimensions spatiales et temporelles. Ainsi, nous proposons un nouveau LVidLM par alignement pixel-temporel guidé par trajectoire, baptisé PiTe, qui présente des propriétés de modèle applicable prometteuses. Pour atteindre un alignement vidéo-langage détaillé, nous constituons un ensemble de données de pré-entraînement multimodal PiTe-143k, fournissant des trajectoires en mouvement au niveau des pixels pour tous les objets individuels, apparaissant et mentionnés à la fois dans la vidéo et la légende, grâce à notre pipeline d'annotation automatique. Parallèlement, PiTe démontre des capacités impressionnantes sur de nombreuses tâches multimodales liées à la vidéo, en surpassant largement les méthodes de pointe.
English
Fueled by the Large Language Models (LLMs) wave, Large Visual-Language Models (LVLMs) have emerged as a pivotal advancement, bridging the gap between image and text. However, video making it challenging for LVLMs to perform adequately due to the complexity of the relationship between language and spatial-temporal data structure. Recent Large Video-Language Models (LVidLMs) align feature of static visual data like image into latent space of language feature, by general multi-modal tasks to leverage abilities of LLMs sufficiently. In this paper, we explore fine-grained alignment approach via object trajectory for different modalities across both spatial and temporal dimensions simultaneously. Thus, we propose a novel LVidLM by trajectory-guided Pixel-Temporal Alignment, dubbed PiTe, that exhibits promising applicable model property. To achieve fine-grained video-language alignment, we curate a multi-modal pre-training dataset PiTe-143k, the dataset provision of moving trajectories in pixel level for all individual objects, that appear and mention in the video and caption both, by our automatic annotation pipeline. Meanwhile, PiTe demonstrates astounding capabilities on myriad video-related multi-modal tasks through beat the state-of-the-art methods by a large margin.

Summary

AI-Generated Summary

PDF142November 16, 2024