ChatPaper.aiChatPaper

PiTe: Выравнивание пикселей по времени для большой видео-языковой модели

PiTe: Pixel-Temporal Alignment for Large Video-Language Model

September 11, 2024
Авторы: Yang Liu, Pengxiang Ding, Siteng Huang, Min Zhang, Han Zhao, Donglin Wang
cs.AI

Аннотация

Под побуждением волны больших языковых моделей (LLM) большие модели визуального языка (LVLM) появились как ключевое достижение, сокращающее разрыв между изображением и текстом. Однако видео создает сложности для LVLM в достижении адекватной производительности из-за сложности взаимосвязи между языком и пространственно-временной структурой данных. Недавние большие модели видео-языка (LVidLM) выравнивают особенность статических визуальных данных, таких как изображение, в латентное пространство языковой особенности, обобщая мультимодальные задачи для достижения достаточного использования возможностей LLM. В данной статье мы исследуем метод тонкой настройки выравнивания через траекторию объекта для различных модальностей одновременно по пространственным и временным измерениям. Таким образом, мы предлагаем новую модель LVidLM с траекторией-ориентированным выравниванием пикселей и времени, названную PiTe, которая обладает многообещающими применимыми свойствами модели. Для достижения тонкой настройки выравнивания видео-языка мы создаем мультимодальный набор данных для предварительного обучения PiTe-143k, предоставляющий данные о движущихся траекториях на уровне пикселей для всех отдельных объектов, которые появляются и упоминаются как в видео, так и в подписи, с помощью нашего автоматического аннотационного конвейера. Тем временем PiTe демонстрирует поразительные возможности в различных мультимодальных задачах, связанных с видео, превосходя существующие методы с большим отрывом.
English
Fueled by the Large Language Models (LLMs) wave, Large Visual-Language Models (LVLMs) have emerged as a pivotal advancement, bridging the gap between image and text. However, video making it challenging for LVLMs to perform adequately due to the complexity of the relationship between language and spatial-temporal data structure. Recent Large Video-Language Models (LVidLMs) align feature of static visual data like image into latent space of language feature, by general multi-modal tasks to leverage abilities of LLMs sufficiently. In this paper, we explore fine-grained alignment approach via object trajectory for different modalities across both spatial and temporal dimensions simultaneously. Thus, we propose a novel LVidLM by trajectory-guided Pixel-Temporal Alignment, dubbed PiTe, that exhibits promising applicable model property. To achieve fine-grained video-language alignment, we curate a multi-modal pre-training dataset PiTe-143k, the dataset provision of moving trajectories in pixel level for all individual objects, that appear and mention in the video and caption both, by our automatic annotation pipeline. Meanwhile, PiTe demonstrates astounding capabilities on myriad video-related multi-modal tasks through beat the state-of-the-art methods by a large margin.

Summary

AI-Generated Summary

PDF142November 16, 2024