SALOVA: Assistente de Vídeo de Longa Duração com Segmentação para Recuperação e Roteamento Direcionados na Análise de Vídeos de Longa Duração
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis
November 25, 2024
Autores: Junho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro
cs.AI
Resumo
Apesar dos avanços em Modelos Multimodais Grandes, aplicá-los a conteúdos de vídeo longos e não editados ainda é desafiador devido às limitações no comprimento do contexto e à considerável sobrecarga de memória. Essas restrições frequentemente resultam em perda significativa de informações e redução de relevância nas respostas do modelo. Com o crescimento exponencial de dados de vídeo em plataformas web, compreender vídeos longos é crucial para avançar na inteligência generalizada. Neste artigo, apresentamos SALOVA: Segment-Augmented LOng Video Assistant, um novo framework de vídeo-LLM projetado para aprimorar a compreensão de conteúdos de vídeo extensos por meio de um processo de recuperação direcionada. Abordamos dois desafios principais para alcançá-lo: (i) Apresentamos o conjunto de dados SceneWalk, uma coleção de alta qualidade de 87,8 mil vídeos longos, cada um densamente legendado no nível do segmento para permitir que os modelos capturem a continuidade da cena e mantenham um contexto descritivo rico. (ii) Desenvolvemos designs arquiteturais robustos integrando um mecanismo de roteamento dinâmico e um projetor espaço-temporal para recuperar e processar eficientemente segmentos de vídeo relevantes com base em consultas do usuário. Nosso framework mitiga as limitações dos atuais vídeo-LMMs ao permitir a identificação precisa e a recuperação de segmentos de vídeo relevantes em resposta a consultas, melhorando assim a relevância contextual das respostas geradas. Através de experimentos extensivos, SALOVA demonstra capacidade aprimorada no processamento de vídeos longos complexos, mostrando significativa capacidade de manter a integridade contextual em sequências estendidas.
English
Despite advances in Large Multi-modal Models, applying them to long and
untrimmed video content remains challenging due to limitations in context
length and substantial memory overhead. These constraints often lead to
significant information loss and reduced relevance in the model responses. With
the exponential growth of video data across web platforms, understanding
long-form video is crucial for advancing generalized intelligence. In this
paper, we introduce SALOVA: Segment-Augmented LOng Video Assistant, a novel
video-LLM framework designed to enhance the comprehension of lengthy video
content through targeted retrieval process. We address two main challenges to
achieve it: (i) We present the SceneWalk dataset, a high-quality collection of
87.8K long videos, each densely captioned at the segment level to enable models
to capture scene continuity and maintain rich descriptive context. (ii) We
develop robust architectural designs integrating dynamic routing mechanism and
spatio-temporal projector to efficiently retrieve and process relevant video
segments based on user queries. Our framework mitigates the limitations of
current video-LMMs by allowing for precise identification and retrieval of
relevant video segments in response to queries, thereby improving the
contextual relevance of the generated responses. Through extensive experiments,
SALOVA demonstrates enhanced capability in processing complex long-form videos,
showing significant capability to maintain contextual integrity across extended
sequences.Summary
AI-Generated Summary