ChatPaper.aiChatPaper

CoS: Estímulo de Cadena de Disparos para la Comprensión de Videos Largos

CoS: Chain-of-Shot Prompting for Long Video Understanding

February 10, 2025
Autores: Jian Hu, Zixu Cheng, Chenyang Si, Wei Li, Shaogang Gong
cs.AI

Resumen

Los Modelos de Lenguaje Multimodales a Gran Escala (MLLMs) enfrentan dificultades con videos largos debido a la necesidad de tokens visuales excesivos. Estos tokens superan ampliamente la longitud del contexto de los MLLMs, lo que resulta en la inclusión de tomas redundantes e irrelevantes para la tarea. La selección de tomas es un problema crítico no resuelto: el muestreo escaso corre el riesgo de omitir detalles clave, mientras que el muestreo exhaustivo abruma al modelo con contenido irrelevante, lo que conduce a malentendidos en el video. Para resolver este problema, proponemos el enfoque de Encadenamiento de Toma (CoS). La idea clave es enmarcar la selección de tomas como una optimización de indicaciones visuales en tiempo de prueba, eligiendo tomas adaptativas a la tarea semántica de comprensión del video mediante la optimización de la alineación entre las tomas y la tarea. CoS consta de dos partes clave: (1) un mecanismo de resumen de video binario que realiza anclajes temporales pseudo, descubriendo una codificación binaria para identificar tomas relevantes para la tarea, y (2) un módulo de co-raciocinio de video que utiliza la codificación binaria para emparejar (aprender a alinear) tomas positivas relevantes para la tarea con tomas negativas irrelevantes. Incorpora las selecciones de tomas optimizadas en el video original, lo que facilita enfocarse en el contexto relevante para optimizar la comprensión de videos largos. Experimentos realizados en tres líneas de base y cinco conjuntos de datos demuestran la efectividad y adaptabilidad de CoS. El código se encuentra disponible en https://lwpyh.github.io/CoS.
English
Multi-modal Large Language Models (MLLMs) struggle with long videos due to the need for excessive visual tokens. These tokens exceed massively the context length of MLLMs, resulting in filled by redundant task-irrelevant shots. How to select shots is an unsolved critical problem: sparse sampling risks missing key details, while exhaustive sampling overwhelms the model with irrelevant content, leading to video misunderstanding. To solve this problem, we propose Chain-of-Shot prompting (CoS). The key idea is to frame shot selection as test-time visual prompt optimisation, choosing shots adaptive to video understanding semantic task by optimising shots-task alignment. CoS has two key parts: (1) a binary video summary mechanism that performs pseudo temporal grounding, discovering a binary coding to identify task-relevant shots, and (2) a video co-reasoning module that deploys the binary coding to pair (learning to align) task-relevant positive shots with irrelevant negative shots. It embeds the optimised shot selections into the original video, facilitating a focus on relevant context to optimize long video understanding. Experiments across three baselines and five datasets demonstrate the effectiveness and adaptability of CoS. Code given in https://lwpyh.github.io/CoS.

Summary

AI-Generated Summary

PDF102February 12, 2025