ShareGPT4Video: Улучшение понимания и генерации видео с помощью более качественных подписейShareGPT4Video: Improving Video Understanding and Generation with Better
Captions
Мы представляем серию ShareGPT4Video, направленную на облегчение понимания видео большими моделями языка (LVLM) и генерацию видео с помощью моделей текст-в-видео (T2VM) с помощью плотных и точных подписей. Серия включает: 1) ShareGPT4Video, 40 тыс. аннотированных плотных подписей к видео с различной продолжительностью и источниками, разработанных через тщательно спроектированные стратегии фильтрации данных и аннотирования. 2) ShareCaptioner-Video, эффективную и способную модель подписывания для произвольных видео, с 4,8 млн. высококачественных эстетических видео, аннотированных ею. 3) ShareGPT4Video-8B, простую, но великолепную LVLM, достигшую лучших результатов на трех продвинутых видео-бенчмарках. Для достижения этого, отложив не масштабируемых дорогостоящих человеческих аннотаторов, мы обнаружили, что использование GPT4V для подписывания видео с наивной стратегией ввода мультикадров или конкатенации кадров приводит к менее детализированным и иногда временно запутанным результатам. Мы считаем, что вызов проектирования стратегии высококачественного подписывания видео заключается в трех аспектах: 1) Точное понимание временных изменений между кадрами. 2) Детальное описание содержимого внутри кадра. 3) Масштабируемость по количеству кадров для видео произвольной длины. Для этого мы тщательно разработали дифференциальную стратегию подписывания видео, которая является стабильной, масштабируемой и эффективной для генерации подписей для видео с произвольным разрешением, соотношением сторон и длиной. На основе этого мы создали ShareGPT4Video, который содержит 40 тыс. высококачественных видео различных категорий, а полученные подписи охватывают богатые знания о мире, атрибуты объектов, движения камеры и, что критично, детальные и точные временные описания событий. На основе ShareGPT4Video мы далее разработали ShareCaptioner-Video, превосходный подписыватель, способный эффективно генерировать высококачественные подписи для произвольных видео...