Grounded-VideoLLM: Улучшение точности тонкой временной привязки в видео с помощью больших языковых моделей.
Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models
October 4, 2024
Авторы: Haibo Wang, Zhiyang Xu, Yu Cheng, Shizhe Diao, Yufan Zhou, Yixin Cao, Qifan Wang, Weifeng Ge, Lifu Huang
cs.AI
Аннотация
Видео-большие языковые модели (Video-LLMs) продемонстрировали выдающиеся возможности в грубом понимании видео, однако испытывают трудности с точным временным выравниванием. В данной статье мы представляем Grounded-VideoLLM, новую видео-LLM, способную воспринимать и рассуждать о конкретных моментах видео в детализированном виде. Мы выявляем, что текущие видео-LLM имеют ограничения для точного понимания видео, поскольку им не хватает эффективного моделирования времени и представления меток времени. В свете этого мы улучшаем нашу модель, включая (1) дополнительный временной поток для кодирования отношений между кадрами и (2) дискретные временные токены, обогащенные конкретными знаниями о времени для представления меток времени. Для оптимизации обучения Grounded-VideoLLM мы используем многоступенчатую схему обучения, начиная с простых задач описания видео и постепенно вводя задачи временного выравнивания видео повышающейся сложности. Для дальнейшего улучшения способности Grounded-VideoLLM к временному рассуждению мы также создаем набор данных Grounded VideoQA с помощью автоматизированного процесса аннотирования. Обширные эксперименты показывают, что Grounded-VideoLLM не только превосходит в задачах точного выравнивания, таких как временное выравнивание предложений, плотное описание видео и Grounded VideoQA, но также обладает большим потенциалом как универсальный видео-ассистент для общего понимания видео.
English
Video Large Language Models (Video-LLMs) have demonstrated remarkable
capabilities in coarse-grained video understanding, however, they struggle with
fine-grained temporal grounding. In this paper, we introduce Grounded-VideoLLM,
a novel Video-LLM adept at perceiving and reasoning over specific video moments
in a fine-grained manner. We identify that current Video-LLMs have limitations
for fine-grained video understanding since they lack effective temporal
modeling and timestamp representation. In light of this, we sharpen our model
by incorporating (1) an additional temporal stream to encode the relationships
between frames and (2) discrete temporal tokens enriched with specific time
knowledge to represent timestamps. To optimize the training of
Grounded-VideoLLM, we employ a multi-stage training scheme, beginning with
simple video-captioning tasks and progressively introducing video temporal
grounding tasks of increasing complexity. To further enhance
Grounded-VideoLLM's temporal reasoning capability, we also curate a grounded
VideoQA dataset by an automatic annotation pipeline. Extensive experiments
demonstrate that Grounded-VideoLLM not only excels in fine-grained grounding
tasks such as temporal sentence grounding, dense video captioning, and grounded
VideoQA, but also shows great potential as a versatile video assistant for
general video understanding.Summary
AI-Generated Summary