VLog: 내레이션 생성적 검색을 통한 비디오-언어 모델 어휘
VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary
March 12, 2025
저자: Kevin Qinghong Lin, Mike Zheng Shou
cs.AI
초록
인간의 일상 활동은 비디오 스트림에서 일상적인 이벤트(예: 알람 끄기)의 연속으로 간결하게 서술될 수 있으며, 이는 이벤트 어휘를 형성합니다. 이를 바탕으로, 우리는 기존의 생성적 비디오-언어 모델에서 사용되는 하위 단어 어휘를 넘어서서 비디오 서술을 어휘로 정의하는 새로운 비디오 이해 프레임워크인 VLog를 소개합니다. 경량 언어 모델 GPT-2를 기반으로 구축된 VLog는 세 가지 주요 혁신을 특징으로 합니다: (i) 언어 모델의 복잡한 추론 능력과 대조적 검색의 효율적인 유사성 검색을 결합한 생성적 검색 모델. (ii) 대규모 비디오 서술에서 우리의 서술 쌍 인코딩 알고리즘을 사용하여 도출된 계층적 어휘, 이를 통해 특정 이벤트(예: 토마토 자르기)를 더 넓은 시나리오(예: 주방)와 표현적인 접미사(예: 왼손으로)를 식별하여 효율적으로 인덱싱할 수 있습니다. (iii) 추론 중에 접하는 새로운 이벤트를 위해 어휘를 확장하기 위해 생성 모델을 활용한 어휘 업데이트 전략. 우리의 접근 방식을 검증하기 위해, 우리는 간결한 서술과 추론 관계(예: 전과 후)를 요구하는 개발 세트인 VidCap-Eval을 소개합니다. EgoSchema, COIN, HiREST에 대한 실험은 VLog의 효과를 입증하며, 간결하고 문맥적으로 정확하며 효율적인 서술을 생성하는 능력을 강조하여 비디오 이해에 대한 새로운 관점을 제공합니다. 코드는 https://github.com/showlab/VLog에서 공개되었습니다.
English
Human daily activities can be concisely narrated as sequences of routine
events (e.g., turning off an alarm) in video streams, forming an event
vocabulary. Motivated by this, we introduce VLog, a novel video understanding
framework that define video narrations as vocabulary, going beyond the typical
subword vocabularies in existing generative video-language models. Built on the
lightweight language model GPT-2, VLog feature three key innovations: (i) A
generative retrieval model, marrying language model's complex reasoning
capabilities with contrastive retrieval's efficient similarity search. (ii) A
hierarchical vocabulary derived from large-scale video narrations using our
narration pair encoding algorithm, enabling efficient indexing of specific
events (e.g., cutting a tomato) by identifying broader scenarios (e.g.,
kitchen) with expressive postfixes (e.g., by the left hand). (iii) A vocabulary
update strategy leveraging generative models to extend the vocabulary for novel
events encountered during inference. To validate our approach, we introduce
VidCap-Eval, a development set requiring concise narrations with reasoning
relationships (e.g., before and after). Experiments on EgoSchema, COIN, and
HiREST further demonstrate the effectiveness of VLog, highlighting its ability
to generate concise, contextually accurate, and efficient narrations, offering
a novel perspective on video understanding. Codes are released at
https://github.com/showlab/VLog.Summary
AI-Generated Summary