VideoRAG: Generazione potenziata da recupero su corpus videoVideoRAG: Retrieval-Augmented Generation over Video Corpus
La Generazione potenziata da Recupero (RAG) è una strategia potente per affrontare il problema della generazione di output factualmente scorretti nei modelli di base recuperando conoscenze esterne rilevanti alle query e incorporandole nel processo di generazione. Tuttavia, gli approcci RAG esistenti si sono principalmente concentrati sulle informazioni testuali, con alcuni recenti progressi che iniziano a considerare le immagini, trascurando in gran parte i video, una ricca fonte di conoscenza multimodale in grado di rappresentare eventi, processi e dettagli contestuali in modo più efficace rispetto a qualsiasi altra modalità. Mentre alcuni recenti studi esplorano l'integrazione dei video nel processo di generazione delle risposte, essi o predefiniscono video associati alle query senza recuperarli in base alle query, o convertono i video in descrizioni testuali senza sfruttarne la ricchezza multimodale. Per affrontare questi aspetti, presentiamo VideoRAG, un nuovo framework che non solo recupera dinamicamente video rilevanti in base alla loro pertinenza alle query, ma utilizza anche informazioni visive e testuali dei video nella generazione dell'output. Inoltre, per operazionalizzare ciò, il nostro metodo si basa sui recenti progressi dei Grandi Modelli Linguistici Video (LVLM), che consentono l'elaborazione diretta dei contenuti video per rappresentarli per il recupero e l'integrazione senza soluzione di continuità dei video recuperati insieme alle query. Convalidiamo sperimentalmente l'efficacia di VideoRAG, dimostrando che è superiore ai baselines pertinenti.