ChatPaper.aiChatPaper

SALOVA : Assistant Vidéo Longue Durée Augmentée par Segmentation pour la Récupération Ciblée et le Routage dans l'Analyse de Vidéos Longues

SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

November 25, 2024
Auteurs: Junho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro
cs.AI

Résumé

Malgré les avancées des Grands Modèles Multi-modaux, les appliquer à des contenus vidéo longs et non coupés reste difficile en raison des limitations de longueur du contexte et de la charge mémoire substantielle. Ces contraintes entraînent souvent une perte d'informations significative et une pertinence réduite dans les réponses du modèle. Avec la croissance exponentielle des données vidéo sur les plateformes web, la compréhension des vidéos longues est cruciale pour faire progresser l'intelligence généralisée. Dans cet article, nous présentons SALOVA : Segment-Augmented LOng Video Assistant, un nouveau cadre vidéo-LLM conçu pour améliorer la compréhension des contenus vidéo longs grâce à un processus de recherche ciblée. Nous abordons deux principaux défis pour y parvenir : (i) Nous présentons le jeu de données SceneWalk, une collection de haute qualité de 87,8K vidéos longues, chacune étant densément sous-titrée au niveau du segment pour permettre aux modèles de capturer la continuité des scènes et de maintenir un contexte descriptif riche. (ii) Nous développons des conceptions architecturales robustes intégrant un mécanisme de routage dynamique et un projecteur spatio-temporel pour récupérer et traiter efficacement les segments vidéo pertinents en fonction des requêtes des utilisateurs. Notre cadre atténue les limitations des actuels vidéo-LMMs en permettant l'identification précise et la récupération des segments vidéo pertinents en réponse aux requêtes, améliorant ainsi la pertinence contextuelle des réponses générées. À travers des expériences approfondies, SALOVA démontre une capacité améliorée à traiter des vidéos longues complexes, montrant une capacité significative à maintenir l'intégrité contextuelle à travers des séquences étendues.
English
Despite advances in Large Multi-modal Models, applying them to long and untrimmed video content remains challenging due to limitations in context length and substantial memory overhead. These constraints often lead to significant information loss and reduced relevance in the model responses. With the exponential growth of video data across web platforms, understanding long-form video is crucial for advancing generalized intelligence. In this paper, we introduce SALOVA: Segment-Augmented LOng Video Assistant, a novel video-LLM framework designed to enhance the comprehension of lengthy video content through targeted retrieval process. We address two main challenges to achieve it: (i) We present the SceneWalk dataset, a high-quality collection of 87.8K long videos, each densely captioned at the segment level to enable models to capture scene continuity and maintain rich descriptive context. (ii) We develop robust architectural designs integrating dynamic routing mechanism and spatio-temporal projector to efficiently retrieve and process relevant video segments based on user queries. Our framework mitigates the limitations of current video-LMMs by allowing for precise identification and retrieval of relevant video segments in response to queries, thereby improving the contextual relevance of the generated responses. Through extensive experiments, SALOVA demonstrates enhanced capability in processing complex long-form videos, showing significant capability to maintain contextual integrity across extended sequences.

Summary

AI-Generated Summary

PDF102November 27, 2024