VideoRAG: Geração Aprimorada por Recuperação sobre um Corpus de VídeoVideoRAG: Retrieval-Augmented Generation over Video Corpus
A Geração com Recuperação (RAG) é uma estratégia poderosa para lidar com o problema de gerar saídas factualmente incorretas em modelos fundamentais, recuperando conhecimento externo relevante para consultas e incorporando-o ao processo de geração. No entanto, as abordagens RAG existentes têm se concentrado principalmente em informações textuais, com alguns avanços recentes começando a considerar imagens, e em grande parte negligenciam vídeos, uma rica fonte de conhecimento multimodal capaz de representar eventos, processos e detalhes contextuais de forma mais eficaz do que qualquer outra modalidade. Enquanto alguns estudos recentes exploram a integração de vídeos no processo de geração de respostas, eles ou pré-definem vídeos associados à consulta sem recuperá-los de acordo com as consultas, ou convertem vídeos em descrições textuais sem aproveitar sua riqueza multimodal. Para lidar com isso, apresentamos o VideoRAG, um novo framework que não apenas recupera dinamicamente vídeos relevantes com base em sua relevância com as consultas, mas também utiliza informações visuais e textuais dos vídeos na geração de saídas. Além disso, para operacionalizar isso, nosso método gira em torno do recente avanço dos Grandes Modelos de Linguagem de Vídeo (LVLMs), que permitem o processamento direto de conteúdo de vídeo para representá-lo para recuperação e integração contínua dos vídeos recuperados em conjunto com as consultas. Validamos experimentalmente a eficácia do VideoRAG, demonstrando que ele é superior às baselines relevantes.