ChatPaper.aiChatPaper

CoS: Ketten-von-Aufnahmen-Anregung für das Verständnis langer Videos

CoS: Chain-of-Shot Prompting for Long Video Understanding

February 10, 2025
Autoren: Jian Hu, Zixu Cheng, Chenyang Si, Wei Li, Shaogang Gong
cs.AI

Zusammenfassung

Multi-modal Large Language Models (MLLMs) haben Schwierigkeiten mit langen Videos aufgrund des Bedarfs an übermäßigen visuellen Token. Diese Token überschreiten massiv die Kontextlänge von MLLMs, was dazu führt, dass redundante, für die Aufgabe irrelevante Aufnahmen gefüllt werden. Die Auswahl von Aufnahmen ist ein ungelöstes kritisches Problem: Eine spärliche Stichprobenahme birgt das Risiko, wichtige Details zu übersehen, während eine erschöpfende Stichprobenahme das Modell mit irrelevantem Inhalt überfordert, was zu einem Missverständnis des Videos führt. Zur Lösung dieses Problems schlagen wir das Chain-of-Shot-Prompting (CoS) vor. Die Schlüsselidee besteht darin, die Auswahl von Aufnahmen als Optimierung von visuellen Hinweisen zur Testzeit zu rahmen, indem Aufnahmen adaptiv zur semantischen Aufgabenverständnis des Videos ausgewählt werden, indem die Ausrichtung von Aufnahmen und Aufgaben optimiert wird. CoS besteht aus zwei Schlüsselteilen: (1) ein binärer Mechanismus für die Videozusammenfassung, der eine pseudotemporale Verankerung durchführt, um eine binäre Codierung zur Identifizierung von aufgabenrelevanten Aufnahmen zu entdecken, und (2) ein Videokohärenzmodul, das die binäre Codierung einsetzt, um aufgabenrelevante positive Aufnahmen mit irrelevanten negativen Aufnahmen zu paaren (Lernen, um auszurichten). Es bettet die optimierten Aufnahmeselektionen in das ursprüngliche Video ein, um sich auf den relevanten Kontext zu konzentrieren und das Verständnis von langen Videos zu optimieren. Experimente über drei Basislinien und fünf Datensätze zeigen die Wirksamkeit und Anpassungsfähigkeit von CoS. Der Code ist unter https://lwpyh.github.io/CoS verfügbar.
English
Multi-modal Large Language Models (MLLMs) struggle with long videos due to the need for excessive visual tokens. These tokens exceed massively the context length of MLLMs, resulting in filled by redundant task-irrelevant shots. How to select shots is an unsolved critical problem: sparse sampling risks missing key details, while exhaustive sampling overwhelms the model with irrelevant content, leading to video misunderstanding. To solve this problem, we propose Chain-of-Shot prompting (CoS). The key idea is to frame shot selection as test-time visual prompt optimisation, choosing shots adaptive to video understanding semantic task by optimising shots-task alignment. CoS has two key parts: (1) a binary video summary mechanism that performs pseudo temporal grounding, discovering a binary coding to identify task-relevant shots, and (2) a video co-reasoning module that deploys the binary coding to pair (learning to align) task-relevant positive shots with irrelevant negative shots. It embeds the optimised shot selections into the original video, facilitating a focus on relevant context to optimize long video understanding. Experiments across three baselines and five datasets demonstrate the effectiveness and adaptability of CoS. Code given in https://lwpyh.github.io/CoS.

Summary

AI-Generated Summary

PDF102February 12, 2025