CoS: Encadeamento de Disparos para Compreensão de Vídeos Longos
CoS: Chain-of-Shot Prompting for Long Video Understanding
February 10, 2025
Autores: Jian Hu, Zixu Cheng, Chenyang Si, Wei Li, Shaogang Gong
cs.AI
Resumo
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) enfrentam dificuldades com vídeos longos devido à necessidade de tokens visuais excessivos. Esses tokens excedem massivamente o comprimento de contexto dos MLLMs, resultando em preenchimento por cenas redundantes e irrelevantes para a tarefa. A seleção de cenas é um problema crítico não resolvido: a amostragem esparsa corre o risco de perder detalhes importantes, enquanto a amostragem exaustiva sobrecarrega o modelo com conteúdo irrelevante, levando a uma má compreensão do vídeo. Para resolver esse problema, propomos o prompting em cadeia de cenas (CoS). A ideia principal é enquadrar a seleção de cenas como otimização de prompt visual em tempo de teste, escolhendo cenas adaptativas à compreensão do vídeo pela tarefa semântica, otimizando o alinhamento entre cenas e tarefa. O CoS possui duas partes principais: (1) um mecanismo de resumo de vídeo binário que realiza ancoragem temporal pseudo, descobrindo uma codificação binária para identificar cenas relevantes para a tarefa, e (2) um módulo de co-raciocínio de vídeo que utiliza a codificação binária para associar (aprendendo a alinhar) cenas positivas relevantes para a tarefa com cenas negativas irrelevantes. Ele incorpora as seleções de cenas otimizadas no vídeo original, facilitando o foco no contexto relevante para otimizar a compreensão de vídeos longos. Experimentos em três bases e cinco conjuntos de dados demonstram a eficácia e adaptabilidade do CoS. Código disponível em https://lwpyh.github.io/CoS.
English
Multi-modal Large Language Models (MLLMs) struggle with long videos due to
the need for excessive visual tokens. These tokens exceed massively the context
length of MLLMs, resulting in filled by redundant task-irrelevant shots. How to
select shots is an unsolved critical problem: sparse sampling risks missing key
details, while exhaustive sampling overwhelms the model with irrelevant
content, leading to video misunderstanding. To solve this problem, we propose
Chain-of-Shot prompting (CoS). The key idea is to frame shot selection as
test-time visual prompt optimisation, choosing shots adaptive to video
understanding semantic task by optimising shots-task alignment. CoS has two key
parts: (1) a binary video summary mechanism that performs pseudo temporal
grounding, discovering a binary coding to identify task-relevant shots, and (2)
a video co-reasoning module that deploys the binary coding to pair (learning to
align) task-relevant positive shots with irrelevant negative shots. It embeds
the optimised shot selections into the original video, facilitating a focus on
relevant context to optimize long video understanding. Experiments across three
baselines and five datasets demonstrate the effectiveness and adaptability of
CoS. Code given in https://lwpyh.github.io/CoS.Summary
AI-Generated Summary