ChatPaper.aiChatPaper

CoS : Incitation en Chaîne de Plans pour la Compréhension de Vidéos Longues

CoS: Chain-of-Shot Prompting for Long Video Understanding

February 10, 2025
Auteurs: Jian Hu, Zixu Cheng, Chenyang Si, Wei Li, Shaogang Gong
cs.AI

Résumé

Les Modèles de Langage Multi-modaux à Grande Échelle (MLLM) rencontrent des difficultés avec les longues vidéos en raison du besoin de jetons visuels excessifs. Ces jetons dépassent largement la longueur de contexte des MLLM, ce qui entraîne un remplissage par des plans redondants non pertinents pour la tâche. La sélection des plans est un problème critique non résolu : un échantillonnage clair risque de manquer des détails clés, tandis qu'un échantillonnage exhaustif submerge le modèle de contenu non pertinent, conduisant à une incompréhension de la vidéo. Pour résoudre ce problème, nous proposons le prompt Chain-of-Shot (CoS). L'idée clé est de formuler la sélection des plans comme une optimisation de prompt visuel au moment du test, en choisissant des plans adaptés à la tâche sémantique de compréhension de la vidéo en optimisant l'alignement des plans sur la tâche. CoS se compose de deux parties clés : (1) un mécanisme de résumé vidéo binaire qui effectue un ancrage temporel pseudo, découvrant un codage binaire pour identifier les plans pertinents pour la tâche, et (2) un module de co-raisonnement vidéo qui déploie le codage binaire pour associer (apprentissage de l'alignement) des plans positifs pertinents pour la tâche avec des plans négatifs non pertinents. Il intègre les sélections de plans optimisées dans la vidéo d'origine, facilitant une focalisation sur le contexte pertinent pour optimiser la compréhension des longues vidéos. Des expériences menées sur trois bases et cinq ensembles de données démontrent l'efficacité et l'adaptabilité de CoS. Le code est disponible sur https://lwpyh.github.io/CoS.
English
Multi-modal Large Language Models (MLLMs) struggle with long videos due to the need for excessive visual tokens. These tokens exceed massively the context length of MLLMs, resulting in filled by redundant task-irrelevant shots. How to select shots is an unsolved critical problem: sparse sampling risks missing key details, while exhaustive sampling overwhelms the model with irrelevant content, leading to video misunderstanding. To solve this problem, we propose Chain-of-Shot prompting (CoS). The key idea is to frame shot selection as test-time visual prompt optimisation, choosing shots adaptive to video understanding semantic task by optimising shots-task alignment. CoS has two key parts: (1) a binary video summary mechanism that performs pseudo temporal grounding, discovering a binary coding to identify task-relevant shots, and (2) a video co-reasoning module that deploys the binary coding to pair (learning to align) task-relevant positive shots with irrelevant negative shots. It embeds the optimised shot selections into the original video, facilitating a focus on relevant context to optimize long video understanding. Experiments across three baselines and five datasets demonstrate the effectiveness and adaptability of CoS. Code given in https://lwpyh.github.io/CoS.

Summary

AI-Generated Summary

PDF102February 12, 2025