ChatPaper.aiChatPaper

SALOVA: Сегментированный длинный видеоассистент для целевого извлечения и маршрутизации в анализе длинных видеоформатов

SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

November 25, 2024
Авторы: Junho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro
cs.AI

Аннотация

Несмотря на прогресс в области крупных мультимодальных моделей, их применение к длинным и необработанным видеоматериалам остается сложным из-за ограничений на длину контекста и значительных накладных расходов памяти. Эти ограничения часто приводят к значительной потере информации и снижению актуальности ответов модели. С увеличением экспоненциального роста видеоданных на веб-платформах понимание длинных видеоматериалов критично для развития обобщенного интеллекта. В данной статье мы представляем SALOVA: Segment-Augmented LOng Video Assistant, новую структуру видео-LLM, разработанную для улучшения понимания длинных видеоматериалов через целенаправленный процесс извлечения. Мы решаем две основные проблемы для достижения этой цели: (i) Мы представляем набор данных SceneWalk, высококачественную коллекцию из 87,8 тыс. длинных видеоматериалов, каждый из которых плотно озаглавлен на уровне сегмента для возможности моделям захватывать непрерывность сцен и сохранять богатый описательный контекст. (ii) Мы разрабатываем надежные архитектурные конструкции, интегрирующие механизм динамического маршрутизации и пространственно-временной проектор для эффективного извлечения и обработки соответствующих видеосегментов на основе запросов пользователей. Наша структура устраняет ограничения текущих видео-LLM, позволяя точно идентифицировать и извлекать соответствующие видеосегменты в ответ на запросы, тем самым улучшая контекстуальную актуальность сгенерированных ответов. Через обширные эксперименты SALOVA демонстрирует улучшенную способность к обработке сложных длинных видеоматериалов, показывая значительную способность сохранять контекстуальную целостность на протяжении продолжительных последовательностей.
English
Despite advances in Large Multi-modal Models, applying them to long and untrimmed video content remains challenging due to limitations in context length and substantial memory overhead. These constraints often lead to significant information loss and reduced relevance in the model responses. With the exponential growth of video data across web platforms, understanding long-form video is crucial for advancing generalized intelligence. In this paper, we introduce SALOVA: Segment-Augmented LOng Video Assistant, a novel video-LLM framework designed to enhance the comprehension of lengthy video content through targeted retrieval process. We address two main challenges to achieve it: (i) We present the SceneWalk dataset, a high-quality collection of 87.8K long videos, each densely captioned at the segment level to enable models to capture scene continuity and maintain rich descriptive context. (ii) We develop robust architectural designs integrating dynamic routing mechanism and spatio-temporal projector to efficiently retrieve and process relevant video segments based on user queries. Our framework mitigates the limitations of current video-LMMs by allowing for precise identification and retrieval of relevant video segments in response to queries, thereby improving the contextual relevance of the generated responses. Through extensive experiments, SALOVA demonstrates enhanced capability in processing complex long-form videos, showing significant capability to maintain contextual integrity across extended sequences.

Summary

AI-Generated Summary

PDF102November 27, 2024