ChatPaper.aiChatPaper

CoS: Catena di Istimoli per la Comprensione di Video Lunghi

CoS: Chain-of-Shot Prompting for Long Video Understanding

February 10, 2025
Autori: Jian Hu, Zixu Cheng, Chenyang Si, Wei Li, Shaogang Gong
cs.AI

Abstract

I modelli di linguaggio multimodali di grandi dimensioni (MLLMs) faticano con i video lunghi a causa della necessità di eccessivi token visivi. Questi token superano massicciamente la lunghezza del contesto degli MLLMs, risultando in un riempimento con riprese ridondanti e non rilevanti per il compito. Come selezionare le riprese è un problema critico irrisolto: un campionamento sparso rischia di perdere dettagli chiave, mentre un campionamento esaustivo sovraccarica il modello con contenuti non rilevanti, portando a un fraintendimento dei video. Per risolvere questo problema, proponiamo il prompting a catena di riprese (CoS). L'idea chiave è quella di inquadrare la selezione delle riprese come ottimizzazione del prompt visivo al momento del test, scegliendo riprese adattive alla comprensione del video per il compito semantico ottimizzando l'allineamento tra riprese e compito. CoS ha due parti chiave: (1) un meccanismo di riassunto video binario che esegue il riferimento temporale pseudo, scoprendo una codifica binaria per identificare le riprese rilevanti per il compito, e (2) un modulo di co-ragionamento video che utilizza la codifica binaria per accoppiare (imparando ad allineare) le riprese positive rilevanti per il compito con riprese negative non rilevanti. Incorpora le selezioni di riprese ottimizzate nel video originale, facilitando il focus sul contesto rilevante per ottimizzare la comprensione dei video lunghi. Gli esperimenti su tre basi e cinque set di dati dimostrano l'efficacia e l'adattabilità di CoS. Il codice è disponibile su https://lwpyh.github.io/CoS.
English
Multi-modal Large Language Models (MLLMs) struggle with long videos due to the need for excessive visual tokens. These tokens exceed massively the context length of MLLMs, resulting in filled by redundant task-irrelevant shots. How to select shots is an unsolved critical problem: sparse sampling risks missing key details, while exhaustive sampling overwhelms the model with irrelevant content, leading to video misunderstanding. To solve this problem, we propose Chain-of-Shot prompting (CoS). The key idea is to frame shot selection as test-time visual prompt optimisation, choosing shots adaptive to video understanding semantic task by optimising shots-task alignment. CoS has two key parts: (1) a binary video summary mechanism that performs pseudo temporal grounding, discovering a binary coding to identify task-relevant shots, and (2) a video co-reasoning module that deploys the binary coding to pair (learning to align) task-relevant positive shots with irrelevant negative shots. It embeds the optimised shot selections into the original video, facilitating a focus on relevant context to optimize long video understanding. Experiments across three baselines and five datasets demonstrate the effectiveness and adaptability of CoS. Code given in https://lwpyh.github.io/CoS.

Summary

AI-Generated Summary

PDF102February 12, 2025