ChatPaper.aiChatPaper

FrameThinker: Lernen, mit langen Videos durch mehrfache Frame-Hervorhebungen zu denken

FrameThinker: Learning to Think with Long Videos via Multi-Turn Frame Spotlighting

September 29, 2025
papers.authors: Zefeng He, Xiaoye Qu, Yafu Li, Siyuan Huang, Daizong Liu, Yu Cheng
cs.AI

papers.abstract

Während große visuell-sprachliche Modelle (Large Vision-Language Models, LVLMs) erhebliche Fortschritte im Bereich des Videoverständnisses erzielt haben, wird ihre Anwendung auf die Langzeit-Videoanalyse durch gleichmäßige Bildabtastung und statische textbasierte Schlussfolgerungen behindert, die ineffizient sind und Schwierigkeiten haben, visuell anspruchsvolle Videoaufgaben zu bewältigen. Um diese Herausforderungen zu überwinden, führen wir in diesem Artikel das Konzept des Denkens mit langen Videos ein und schlagen ein neuartiges Framework namens FrameThinker vor. Innerhalb dieses Frameworks sind LVLMs in der Lage, den Videoinhalt iterativ zu hinterfragen. Die Entwicklung solcher Videoanalysefähigkeiten in LVLMs stellt bemerkenswerte Herausforderungen dar, insbesondere bei der Anpassung des Modells an neue Videoaktionen (z. B. Bildauswahl) und bei der Gestaltung von Belohnungsfunktionen, um LVLMs dazu zu bringen, die neu eingeführten Aktionen zu übernehmen. Um diese Herausforderungen zu lösen, schlagen wir eine zweiphasige Trainingsstrategie vor, bei der zunächst Supervised Fine-Tuning (SFT) eingesetzt wird, um grundlegende Aktionsfähigkeiten zu vermitteln, gefolgt von Reinforcement Learning (RL), um eine strategische Entscheidungsfindung zu optimieren. Besonders in dieser RL-Phase führen wir eine tiefgehende und umfassende Untersuchung der Belohnungsgestaltung für jede Aktion und Formatbelohnung durch. Umfangreiche Experimente auf Analyse-Benchmarks wie Video-Holmes, LongVideo-Reason und Langzeit-Video-Verständnis-Benchmarks wie LongVideoBench, MLVU, VideoMME und LVBench zeigen, dass FrameThinker eine signifikante durchschnittliche Verbesserung von +10,4 % gegenüber den Baselines erzielt, während gleichzeitig die Anzahl der verarbeiteten Bilder drastisch reduziert wird. Besonders bemerkenswert ist, dass unser 7B-Modell FrameThinker einen neuen State-of-the-Art auf LongVideo-Reason erreicht, mit einer Genauigkeit von 76,1 % bei durchschnittlich nur 20,6 Bildern. Dies übertrifft nicht nur den konkurrierenden LongVILA-R1 (72,0 %), sondern tut dies auch mit über 20-mal weniger Bildern (vs. 512), was eine beispiellose Effizienz und Wirksamkeit demonstriert.
English
While Large Vision-Language Models (LVLMs) have achieved substantial progress in video understanding, their application to long video reasoning is hindered by uniform frame sampling and static textual reasoning, which are inefficient and struggle to handle visually intensive video tasks. To overcome these challenges, in this paper, we introduce the concept of thinking with long videos and propose a novel framework FrameThinker. Within this framework, LVLMs are able to iteratively interrogate video content. Developing such video reasoning capabilities in LVLMs presents notable challenges, particularly in adapting the model to new video actions (e.g. select frame), and designing reward functions to guide LVLMs to adopt the newly introduced action. To solve these challenges, we propose a two-phase training strategy, first employing Supervised Fine-Tuning (SFT) to instill fundamental action capabilities, followed by Reinforcement Learning (RL) to optimize a strategic decision-making policy. Notably, in this RL phase, we conduct an in-depth and comprehensive exploration of the reward design for each action and format reward. Extensive experiments on reasoning benchmarks like Video-Holmes, LongVideo-Reason, and long-video understanding benchmarks such as LongVideoBench, MLVU, VideoMME, and LVBench, demonstrate that FrameThinker achieves a significant average improvement of +10.4% over baselines while drastically reducing the number of processed frames. Most notably, our 7B model, FrameThinker establishes a new state-of-the-art on LongVideo-Reason, achieving 76.1% accuracy using an average of only 20.6 frames. This not only outperforms the competitive LongVILA-R1 (72.0%) but does so with over 20x fewer frames (vs. 512), demonstrating unparalleled efficiency and effectiveness.
PDF43October 3, 2025