ChatPaper.aiChatPaper

SALOVA: Segment-Versterkte Lange Video Assistent voor Gerichte Opvraging en Routering in Analyse van Lange Video's

SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

November 25, 2024
Auteurs: Junho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro
cs.AI

Samenvatting

Ondanks de vooruitgang in Grote Multi-modale Modellen, blijft het toepassen ervan op lange en onbewerkte videomateriaal uitdagend vanwege beperkingen in contextlengte en aanzienlijke geheugenoverhead. Deze beperkingen leiden vaak tot aanzienlijk informatieverlies en verminderde relevantie in de modelreacties. Met de exponentiële groei van videogegevens op webplatforms is het begrijpen van lange video's cruciaal voor de vooruitgang van gegeneraliseerde intelligentie. In dit artikel introduceren we SALOVA: Segment-Augmented LOng Video Assistant, een nieuw vide-LLM-framework dat is ontworpen om het begrip van lang videomateriaal te verbeteren door middel van een gericht ophaalproces. We pakken twee belangrijke uitdagingen aan om dit te bereiken: (i) We presenteren de SceneWalk-dataset, een hoogwaardige verzameling van 87,8K lange video's, elk dicht ondertiteld op segmentniveau om modellen in staat te stellen scènecontinuïteit vast te leggen en rijke beschrijvende context te behouden. (ii) We ontwikkelen robuuste architectonische ontwerpen die een dynamisch routeringsmechanisme en een ruimtelijk-temporele projector integreren om efficiënt relevante videosegmenten op te halen en te verwerken op basis van gebruikersquery's. Ons framework vermindert de beperkingen van huidige video-LMM's door nauwkeurige identificatie en ophalen van relevante videosegmenten in reactie op query's mogelijk te maken, waardoor de contextuele relevantie van de gegenereerde reacties wordt verbeterd. Via uitgebreide experimenten toont SALOVA verbeterde capaciteiten in het verwerken van complexe lange video's, met aanzienlijke mogelijkheden om contextuele integriteit te behouden over uitgebreide sequenties.
English
Despite advances in Large Multi-modal Models, applying them to long and untrimmed video content remains challenging due to limitations in context length and substantial memory overhead. These constraints often lead to significant information loss and reduced relevance in the model responses. With the exponential growth of video data across web platforms, understanding long-form video is crucial for advancing generalized intelligence. In this paper, we introduce SALOVA: Segment-Augmented LOng Video Assistant, a novel video-LLM framework designed to enhance the comprehension of lengthy video content through targeted retrieval process. We address two main challenges to achieve it: (i) We present the SceneWalk dataset, a high-quality collection of 87.8K long videos, each densely captioned at the segment level to enable models to capture scene continuity and maintain rich descriptive context. (ii) We develop robust architectural designs integrating dynamic routing mechanism and spatio-temporal projector to efficiently retrieve and process relevant video segments based on user queries. Our framework mitigates the limitations of current video-LMMs by allowing for precise identification and retrieval of relevant video segments in response to queries, thereby improving the contextual relevance of the generated responses. Through extensive experiments, SALOVA demonstrates enhanced capability in processing complex long-form videos, showing significant capability to maintain contextual integrity across extended sequences.

Summary

AI-Generated Summary

PDF102November 27, 2024