ChatPaper.aiChatPaper

PiTe: 대규모 비디오-언어 모델을 위한 픽셀-시간적 정렬

PiTe: Pixel-Temporal Alignment for Large Video-Language Model

September 11, 2024
저자: Yang Liu, Pengxiang Ding, Siteng Huang, Min Zhang, Han Zhao, Donglin Wang
cs.AI

초록

대형 언어 모델 (LLM)의 파동에 힘입어, 대형 시각-언어 모델 (LVLM)은 이미지와 텍스트 사이의 간극을 메우는 중요한 발전으로 등장했습니다. 그러나 비디오는 언어와 공간-시간 데이터 구조 간의 복잡한 관계로 인해 LVLM이 적절하게 작동하는 데 어려움을 겪습니다. 최근의 대형 비디오-언어 모델 (LVidLM)은 이미지와 같은 정적 시각 데이터의 특징을 언어 특징의 잠재 공간에 정렬시켜, 다중 모달 작업을 통해 LLM의 능력을 충분히 활용합니다. 본 논문에서는 객체 궤적을 통한 세밀한 정렬 접근 방식을 탐구하여 공간 및 시간 차원 모두에서 다양한 모달에 걸쳐 세밀한 비디오-언어 정렬을 달성합니다. 따라서 우리는 유망한 적용 가능한 모델 특성을 나타내는 궤적 안내형 픽셀-시간 정렬인 PiTe로 명명된 새로운 LVidLM을 제안합니다. 세밀한 비디오-언어 정렬을 달성하기 위해, 우리는 자동 주석 파이프라인을 통해 비디오와 캡션 모두에 나타나고 언급되는 모든 개별 객체의 픽셀 수준 이동 궤적을 제공하는 다중 모달 사전 훈련 데이터셋 PiTe-143k를 선별합니다. 한편 PiTe는 최첨단 방법을 큰 폭으로 능가하여 다양한 비디오 관련 다중 모달 작업에서 놀라운 능력을 보여줍니다.
English
Fueled by the Large Language Models (LLMs) wave, Large Visual-Language Models (LVLMs) have emerged as a pivotal advancement, bridging the gap between image and text. However, video making it challenging for LVLMs to perform adequately due to the complexity of the relationship between language and spatial-temporal data structure. Recent Large Video-Language Models (LVidLMs) align feature of static visual data like image into latent space of language feature, by general multi-modal tasks to leverage abilities of LLMs sufficiently. In this paper, we explore fine-grained alignment approach via object trajectory for different modalities across both spatial and temporal dimensions simultaneously. Thus, we propose a novel LVidLM by trajectory-guided Pixel-Temporal Alignment, dubbed PiTe, that exhibits promising applicable model property. To achieve fine-grained video-language alignment, we curate a multi-modal pre-training dataset PiTe-143k, the dataset provision of moving trajectories in pixel level for all individual objects, that appear and mention in the video and caption both, by our automatic annotation pipeline. Meanwhile, PiTe demonstrates astounding capabilities on myriad video-related multi-modal tasks through beat the state-of-the-art methods by a large margin.

Summary

AI-Generated Summary

PDF142November 16, 2024