ChatPaper.aiChatPaper

ShareGPT4Video: 더 나은 캡션을 통해 비디오 이해 및 생성 능력 향상

ShareGPT4Video: Improving Video Understanding and Generation with Better Captions

June 6, 2024
저자: Lin Chen, Xilin Wei, Jinsong Li, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Zehui Chen, Haodong Duan, Bin Lin, Zhenyu Tang, Li Yuan, Yu Qiao, Dahua Lin, Feng Zhao, Jiaqi Wang
cs.AI

초록

대형 비디오-언어 모델(LVLMs)의 비디오 이해와 텍스트-투-비디오 모델(T2VMs)의 비디오 생성을 촉진하기 위해 ShareGPT4Video 시리즈를 소개합니다. 이 시리즈는 다음과 같이 구성됩니다: 1) ShareGPT4Video, 다양한 길이와 출처의 비디오에 대해 GPT4V로 주석 처리된 40K개의 밀집 캡션으로, 신중하게 설계된 데이터 필터링 및 주석 전략을 통해 개발되었습니다. 2) ShareCaptioner-Video, 임의의 비디오에 대해 효율적이고 능력 있는 캡션 생성 모델로, 4.8M개의 고품질 미적 비디오가 이 모델로 주석 처리되었습니다. 3) ShareGPT4Video-8B, 세 가지 진보된 비디오 벤치마크에서 SOTA 성능을 달성한 간단하지만 탁월한 LVLM입니다. 이를 달성하기 위해, 확장성이 없는 비용이 많이 드는 인간 주석자를 제외하고, GPT4V를 사용하여 단순한 다중 프레임 또는 프레임 연결 입력 전략으로 비디오에 캡션을 달면 덜 상세하고 때로는 시간적으로 혼란스러운 결과가 나온다는 것을 발견했습니다. 고품질 비디오 캡션 전략 설계의 도전 과제는 세 가지 측면에 있다고 주장합니다: 1) 프레임 간 정확한 시간적 변화 이해. 2) 프레임 내 상세한 내용 설명. 3) 임의 길이 비디오에 대한 프레임 수 확장성. 이를 위해, 임의의 해상도, 종횡비 및 길이의 비디오에 대해 안정적이고 확장 가능하며 효율적인 캡션 생성을 위한 차별화된 비디오 캡션 전략을 세심하게 설계했습니다. 이를 기반으로, 다양한 범주의 40K개의 고품질 비디오를 포함하는 ShareGPT4Video를 구축했으며, 결과 캡션은 풍부한 세계 지식, 객체 속성, 카메라 움직임 및 중요한 이벤트의 상세하고 정확한 시간적 설명을 포함합니다. ShareGPT4Video를 기반으로, 임의의 비디오에 대해 효율적으로 고품질 캡션을 생성할 수 있는 우수한 캡션 생성기인 ShareCaptioner-Video를 추가로 개발했습니다...
English
We present the ShareGPT4Video series, aiming to facilitate the video understanding of large video-language models (LVLMs) and the video generation of text-to-video models (T2VMs) via dense and precise captions. The series comprises: 1) ShareGPT4Video, 40K GPT4V annotated dense captions of videos with various lengths and sources, developed through carefully designed data filtering and annotating strategy. 2) ShareCaptioner-Video, an efficient and capable captioning model for arbitrary videos, with 4.8M high-quality aesthetic videos annotated by it. 3) ShareGPT4Video-8B, a simple yet superb LVLM that reached SOTA performance on three advancing video benchmarks. To achieve this, taking aside the non-scalable costly human annotators, we find using GPT4V to caption video with a naive multi-frame or frame-concatenation input strategy leads to less detailed and sometimes temporal-confused results. We argue the challenge of designing a high-quality video captioning strategy lies in three aspects: 1) Inter-frame precise temporal change understanding. 2) Intra-frame detailed content description. 3) Frame-number scalability for arbitrary-length videos. To this end, we meticulously designed a differential video captioning strategy, which is stable, scalable, and efficient for generating captions for videos with arbitrary resolution, aspect ratios, and length. Based on it, we construct ShareGPT4Video, which contains 40K high-quality videos spanning a wide range of categories, and the resulting captions encompass rich world knowledge, object attributes, camera movements, and crucially, detailed and precise temporal descriptions of events. Based on ShareGPT4Video, we further develop ShareCaptioner-Video, a superior captioner capable of efficiently generating high-quality captions for arbitrary videos...

Summary

AI-Generated Summary

PDF764December 8, 2024