ChatPaper.aiChatPaper

ShareGPT4Video: Verbesserung der Videoverständnis und -erzeugung mit besseren Untertiteln

ShareGPT4Video: Improving Video Understanding and Generation with Better Captions

June 6, 2024
Autoren: Lin Chen, Xilin Wei, Jinsong Li, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Zehui Chen, Haodong Duan, Bin Lin, Zhenyu Tang, Li Yuan, Yu Qiao, Dahua Lin, Feng Zhao, Jiaqi Wang
cs.AI

Zusammenfassung

Wir präsentieren die ShareGPT4Video-Serie, die darauf abzielt, das Videoverständnis großer Video-Sprachmodelle (LVLMs) und die Videogenerierung von Text-zu-Video-Modellen (T2VMs) durch dichte und präzise Untertitel zu erleichtern. Die Serie umfasst: 1) ShareGPT4Video, 40K GPT4V annotierte dichte Untertitel von Videos mit verschiedenen Längen und Quellen, entwickelt durch sorgfältig gestaltete Datenfilterung und Annotierungsstrategie. 2) ShareCaptioner-Video, ein effizientes und leistungsfähiges Untertitelungsmodell für beliebige Videos, mit 4,8 Millionen hochwertigen ästhetischen Videos, die von ihm annotiert wurden. 3) ShareGPT4Video-8B, ein einfaches, aber hervorragendes LVLM, das eine SOTA-Leistung auf drei fortschrittlichen Videobenchmarks erreicht hat. Um dies zu erreichen, abgesehen von den nicht skalierbaren kostspieligen menschlichen Annotatoren, stellen wir fest, dass die Verwendung von GPT4V zur Untertitelung von Videos mit einer naiven Multi-Frame- oder Frame-Konkatenations-Eingangsstrategie zu weniger detaillierten und manchmal zeitlich verwirrten Ergebnissen führt. Wir argumentieren, dass die Herausforderung bei der Gestaltung einer hochwertigen Video-Untertitelungsstrategie in drei Aspekten liegt: 1) Präzises Verständnis für zeitliche Änderungen zwischen den Frames. 2) Detaillierte Beschreibung des Inhalts innerhalb eines Frames. 3) Skalierbarkeit der Frame-Anzahl für Videos beliebiger Länge. Zu diesem Zweck haben wir eine differenzielle Video-Untertitelungsstrategie sorgfältig entwickelt, die stabil, skalierbar und effizient ist, um Untertitel für Videos mit beliebiger Auflösung, Seitenverhältnissen und Länge zu generieren. Basierend darauf haben wir ShareGPT4Video konstruiert, das 40K hochwertige Videos aus einer Vielzahl von Kategorien enthält, und die resultierenden Untertitel umfassen reichhaltiges Weltwissen, Objekteigenschaften, Kamerabewegungen und vor allem detaillierte und präzise zeitliche Beschreibungen von Ereignissen. Basierend auf ShareGPT4Video haben wir weiterhin ShareCaptioner-Video entwickelt, einen überlegenen Untertiteler, der in der Lage ist, effizient hochwertige Untertitel für beliebige Videos zu generieren...
English
We present the ShareGPT4Video series, aiming to facilitate the video understanding of large video-language models (LVLMs) and the video generation of text-to-video models (T2VMs) via dense and precise captions. The series comprises: 1) ShareGPT4Video, 40K GPT4V annotated dense captions of videos with various lengths and sources, developed through carefully designed data filtering and annotating strategy. 2) ShareCaptioner-Video, an efficient and capable captioning model for arbitrary videos, with 4.8M high-quality aesthetic videos annotated by it. 3) ShareGPT4Video-8B, a simple yet superb LVLM that reached SOTA performance on three advancing video benchmarks. To achieve this, taking aside the non-scalable costly human annotators, we find using GPT4V to caption video with a naive multi-frame or frame-concatenation input strategy leads to less detailed and sometimes temporal-confused results. We argue the challenge of designing a high-quality video captioning strategy lies in three aspects: 1) Inter-frame precise temporal change understanding. 2) Intra-frame detailed content description. 3) Frame-number scalability for arbitrary-length videos. To this end, we meticulously designed a differential video captioning strategy, which is stable, scalable, and efficient for generating captions for videos with arbitrary resolution, aspect ratios, and length. Based on it, we construct ShareGPT4Video, which contains 40K high-quality videos spanning a wide range of categories, and the resulting captions encompass rich world knowledge, object attributes, camera movements, and crucially, detailed and precise temporal descriptions of events. Based on ShareGPT4Video, we further develop ShareCaptioner-Video, a superior captioner capable of efficiently generating high-quality captions for arbitrary videos...

Summary

AI-Generated Summary

PDF764December 8, 2024