ChatPaper.aiChatPaper

FrameThinker : Apprendre à penser avec des vidéos longues via un éclairage multi-tours sur les images

FrameThinker: Learning to Think with Long Videos via Multi-Turn Frame Spotlighting

September 29, 2025
papers.authors: Zefeng He, Xiaoye Qu, Yafu Li, Siyuan Huang, Daizong Liu, Yu Cheng
cs.AI

papers.abstract

Bien que les grands modèles vision-langage (LVLMs) aient réalisé des progrès significatifs dans la compréhension vidéo, leur application au raisonnement sur de longues vidéos est entravée par l'échantillonnage uniforme des images et le raisonnement textuel statique, qui sont inefficaces et peinent à gérer les tâches vidéo visuellement complexes. Pour surmonter ces défis, nous introduisons dans cet article le concept de raisonnement avec de longues vidéos et proposons un nouveau cadre appelé FrameThinker. Dans ce cadre, les LVLMs sont capables d'interroger itérativement le contenu vidéo. Le développement de telles capacités de raisonnement vidéo dans les LVLMs présente des défis notables, notamment l'adaptation du modèle à de nouvelles actions vidéo (par exemple, sélectionner une image) et la conception de fonctions de récompense pour guider les LVLMs à adopter les actions nouvellement introduites. Pour résoudre ces problèmes, nous proposons une stratégie d'entraînement en deux phases : d'abord un réglage fin supervisé (SFT) pour inculquer les capacités d'action de base, suivi d'un apprentissage par renforcement (RL) pour optimiser une politique de prise de décision stratégique. Notamment, dans cette phase RL, nous menons une exploration approfondie et complète de la conception des récompenses pour chaque action et format de récompense. Des expériences approfondies sur des benchmarks de raisonnement comme Video-Holmes, LongVideo-Reason, et des benchmarks de compréhension de longues vidéos tels que LongVideoBench, MLVU, VideoMME et LVBench, démontrent que FrameThinker obtient une amélioration moyenne significative de +10,4 % par rapport aux baselines tout en réduisant drastiquement le nombre d'images traitées. Plus remarquablement, notre modèle de 7B, FrameThinker, établit un nouvel état de l'art sur LongVideo-Reason, atteignant une précision de 76,1 % en utilisant en moyenne seulement 20,6 images. Cela surpasse non seulement le concurrent LongVILA-R1 (72,0 %) mais le fait avec plus de 20 fois moins d'images (contre 512), démontrant une efficacité et une efficacité sans égal.
English
While Large Vision-Language Models (LVLMs) have achieved substantial progress in video understanding, their application to long video reasoning is hindered by uniform frame sampling and static textual reasoning, which are inefficient and struggle to handle visually intensive video tasks. To overcome these challenges, in this paper, we introduce the concept of thinking with long videos and propose a novel framework FrameThinker. Within this framework, LVLMs are able to iteratively interrogate video content. Developing such video reasoning capabilities in LVLMs presents notable challenges, particularly in adapting the model to new video actions (e.g. select frame), and designing reward functions to guide LVLMs to adopt the newly introduced action. To solve these challenges, we propose a two-phase training strategy, first employing Supervised Fine-Tuning (SFT) to instill fundamental action capabilities, followed by Reinforcement Learning (RL) to optimize a strategic decision-making policy. Notably, in this RL phase, we conduct an in-depth and comprehensive exploration of the reward design for each action and format reward. Extensive experiments on reasoning benchmarks like Video-Holmes, LongVideo-Reason, and long-video understanding benchmarks such as LongVideoBench, MLVU, VideoMME, and LVBench, demonstrate that FrameThinker achieves a significant average improvement of +10.4% over baselines while drastically reducing the number of processed frames. Most notably, our 7B model, FrameThinker establishes a new state-of-the-art on LongVideo-Reason, achieving 76.1% accuracy using an average of only 20.6 frames. This not only outperforms the competitive LongVILA-R1 (72.0%) but does so with over 20x fewer frames (vs. 512), demonstrating unparalleled efficiency and effectiveness.
PDF43October 3, 2025