FrameThinker : Apprendre à penser avec des vidéos longues via un éclairage multi-tours sur les images
FrameThinker: Learning to Think with Long Videos via Multi-Turn Frame Spotlighting
September 29, 2025
papers.authors: Zefeng He, Xiaoye Qu, Yafu Li, Siyuan Huang, Daizong Liu, Yu Cheng
cs.AI
papers.abstract
Bien que les grands modèles vision-langage (LVLMs) aient réalisé des progrès significatifs dans la compréhension vidéo, leur application au raisonnement sur de longues vidéos est entravée par l'échantillonnage uniforme des images et le raisonnement textuel statique, qui sont inefficaces et peinent à gérer les tâches vidéo visuellement complexes. Pour surmonter ces défis, nous introduisons dans cet article le concept de raisonnement avec de longues vidéos et proposons un nouveau cadre appelé FrameThinker. Dans ce cadre, les LVLMs sont capables d'interroger itérativement le contenu vidéo. Le développement de telles capacités de raisonnement vidéo dans les LVLMs présente des défis notables, notamment l'adaptation du modèle à de nouvelles actions vidéo (par exemple, sélectionner une image) et la conception de fonctions de récompense pour guider les LVLMs à adopter les actions nouvellement introduites. Pour résoudre ces problèmes, nous proposons une stratégie d'entraînement en deux phases : d'abord un réglage fin supervisé (SFT) pour inculquer les capacités d'action de base, suivi d'un apprentissage par renforcement (RL) pour optimiser une politique de prise de décision stratégique. Notamment, dans cette phase RL, nous menons une exploration approfondie et complète de la conception des récompenses pour chaque action et format de récompense. Des expériences approfondies sur des benchmarks de raisonnement comme Video-Holmes, LongVideo-Reason, et des benchmarks de compréhension de longues vidéos tels que LongVideoBench, MLVU, VideoMME et LVBench, démontrent que FrameThinker obtient une amélioration moyenne significative de +10,4 % par rapport aux baselines tout en réduisant drastiquement le nombre d'images traitées. Plus remarquablement, notre modèle de 7B, FrameThinker, établit un nouvel état de l'art sur LongVideo-Reason, atteignant une précision de 76,1 % en utilisant en moyenne seulement 20,6 images. Cela surpasse non seulement le concurrent LongVILA-R1 (72,0 %) mais le fait avec plus de 20 fois moins d'images (contre 512), démontrant une efficacité et une efficacité sans égal.
English
While Large Vision-Language Models (LVLMs) have achieved substantial progress
in video understanding, their application to long video reasoning is hindered
by uniform frame sampling and static textual reasoning, which are inefficient
and struggle to handle visually intensive video tasks. To overcome these
challenges, in this paper, we introduce the concept of thinking with long
videos and propose a novel framework FrameThinker. Within this framework, LVLMs
are able to iteratively interrogate video content. Developing such video
reasoning capabilities in LVLMs presents notable challenges, particularly in
adapting the model to new video actions (e.g. select frame), and designing
reward functions to guide LVLMs to adopt the newly introduced action. To solve
these challenges, we propose a two-phase training strategy, first employing
Supervised Fine-Tuning (SFT) to instill fundamental action capabilities,
followed by Reinforcement Learning (RL) to optimize a strategic decision-making
policy. Notably, in this RL phase, we conduct an in-depth and comprehensive
exploration of the reward design for each action and format reward. Extensive
experiments on reasoning benchmarks like Video-Holmes, LongVideo-Reason, and
long-video understanding benchmarks such as LongVideoBench, MLVU, VideoMME, and
LVBench, demonstrate that FrameThinker achieves a significant average
improvement of +10.4% over baselines while drastically reducing the number of
processed frames. Most notably, our 7B model, FrameThinker establishes a new
state-of-the-art on LongVideo-Reason, achieving 76.1% accuracy using an average
of only 20.6 frames. This not only outperforms the competitive LongVILA-R1
(72.0%) but does so with over 20x fewer frames (vs. 512), demonstrating
unparalleled efficiency and effectiveness.