ShareGPT4Video: Улучшение понимания и генерации видео с помощью более качественных подписей
ShareGPT4Video: Improving Video Understanding and Generation with Better Captions
June 6, 2024
Авторы: Lin Chen, Xilin Wei, Jinsong Li, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Zehui Chen, Haodong Duan, Bin Lin, Zhenyu Tang, Li Yuan, Yu Qiao, Dahua Lin, Feng Zhao, Jiaqi Wang
cs.AI
Аннотация
Мы представляем серию ShareGPT4Video, направленную на облегчение понимания видео большими моделями языка (LVLM) и генерацию видео с помощью моделей текст-в-видео (T2VM) с помощью плотных и точных подписей. Серия включает: 1) ShareGPT4Video, 40 тыс. аннотированных плотных подписей к видео с различной продолжительностью и источниками, разработанных через тщательно спроектированные стратегии фильтрации данных и аннотирования. 2) ShareCaptioner-Video, эффективную и способную модель подписывания для произвольных видео, с 4,8 млн. высококачественных эстетических видео, аннотированных ею. 3) ShareGPT4Video-8B, простую, но великолепную LVLM, достигшую лучших результатов на трех продвинутых видео-бенчмарках. Для достижения этого, отложив не масштабируемых дорогостоящих человеческих аннотаторов, мы обнаружили, что использование GPT4V для подписывания видео с наивной стратегией ввода мультикадров или конкатенации кадров приводит к менее детализированным и иногда временно запутанным результатам. Мы считаем, что вызов проектирования стратегии высококачественного подписывания видео заключается в трех аспектах: 1) Точное понимание временных изменений между кадрами. 2) Детальное описание содержимого внутри кадра. 3) Масштабируемость по количеству кадров для видео произвольной длины. Для этого мы тщательно разработали дифференциальную стратегию подписывания видео, которая является стабильной, масштабируемой и эффективной для генерации подписей для видео с произвольным разрешением, соотношением сторон и длиной. На основе этого мы создали ShareGPT4Video, который содержит 40 тыс. высококачественных видео различных категорий, а полученные подписи охватывают богатые знания о мире, атрибуты объектов, движения камеры и, что критично, детальные и точные временные описания событий. На основе ShareGPT4Video мы далее разработали ShareCaptioner-Video, превосходный подписыватель, способный эффективно генерировать высококачественные подписи для произвольных видео...
English
We present the ShareGPT4Video series, aiming to facilitate the video
understanding of large video-language models (LVLMs) and the video generation
of text-to-video models (T2VMs) via dense and precise captions. The series
comprises: 1) ShareGPT4Video, 40K GPT4V annotated dense captions of videos with
various lengths and sources, developed through carefully designed data
filtering and annotating strategy. 2) ShareCaptioner-Video, an efficient and
capable captioning model for arbitrary videos, with 4.8M high-quality aesthetic
videos annotated by it. 3) ShareGPT4Video-8B, a simple yet superb LVLM that
reached SOTA performance on three advancing video benchmarks. To achieve this,
taking aside the non-scalable costly human annotators, we find using GPT4V to
caption video with a naive multi-frame or frame-concatenation input strategy
leads to less detailed and sometimes temporal-confused results. We argue the
challenge of designing a high-quality video captioning strategy lies in three
aspects: 1) Inter-frame precise temporal change understanding. 2) Intra-frame
detailed content description. 3) Frame-number scalability for arbitrary-length
videos. To this end, we meticulously designed a differential video captioning
strategy, which is stable, scalable, and efficient for generating captions for
videos with arbitrary resolution, aspect ratios, and length. Based on it, we
construct ShareGPT4Video, which contains 40K high-quality videos spanning a
wide range of categories, and the resulting captions encompass rich world
knowledge, object attributes, camera movements, and crucially, detailed and
precise temporal descriptions of events. Based on ShareGPT4Video, we further
develop ShareCaptioner-Video, a superior captioner capable of efficiently
generating high-quality captions for arbitrary videos...Summary
AI-Generated Summary