LOVE-R1 : Amélioration de la compréhension de vidéos longues grâce à un mécanisme de zoom adaptatif via un raisonnement multi-étapes
LOVE-R1: Advancing Long Video Understanding with an Adaptive Zoom-in Mechanism via Multi-Step Reasoning
September 29, 2025
papers.authors: Shenghao Fu, Qize Yang, Yuan-Ming Li, Xihan Wei, Xiaohua Xie, Wei-Shi Zheng
cs.AI
papers.abstract
La compréhension des vidéos longues reste un défi pour les modèles récents de langage et vidéo de grande envergure (LVLMs) en raison du conflit entre la compréhension temporelle de long terme et la perception spatiale détaillée. Les LVLMs utilisant un mécanisme d'échantillonnage uniforme des images, qui prélève des images avec une taille égale et un taux d'échantillonnage fixe, sacrifient inévitablement soit les indices temporels, soit les détails spatiaux, conduisant à des solutions sous-optimales. Pour atténuer ce dilemme, nous proposons LOVE-R1, un modèle capable de zoomer de manière adaptative sur un clip vidéo. Le modèle reçoit d'abord des images densément échantillonnées mais avec une faible résolution. Si certains détails spatiaux sont nécessaires, le modèle peut zoomer sur une séquence d'intérêt avec une résolution d'image plus grande, basée sur son raisonnement, jusqu'à obtenir les informations visuelles clés. L'ensemble du processus est implémenté comme un raisonnement multi-étapes. Pour entraîner cette capacité de raisonnement, nous affinons d'abord le modèle sur nos 38k données de haute qualité CoT collectées, puis l'améliorons avec un affinage par renforcement découplé. Comme les récompenses de résultat ne peuvent pas fournir une supervision fine du processus, nous découplons le raisonnement multi-étapes en plusieurs raisonnements mono-étapes et optimisons explicitement la capacité de zoom interne. Les expériences sur les benchmarks de compréhension de vidéos longues montrent que notre modèle, avec le mécanisme d'échantillonnage adaptatif lent-rapide, atteint un excellent compromis entre la densité d'échantillonnage et les résolutions d'image, et LOVE-R1 surpasse notre baseline Qwen2.5-VL de 3,1 points en moyenne sur 4 benchmarks courants de compréhension de vidéos longues.
English
Long video understanding is still challenging for recent Large Video-Language
Models (LVLMs) due to the conflict between long-form temporal understanding and
detailed spatial perception. LVLMs with a uniform frame sampling mechanism,
which samples frames with an equal frame size and fixed sampling rate,
inevitably sacrifice either temporal clues or spatial details, resulting in
suboptimal solutions. To mitigate this dilemma, we propose LOVE-R1, a model
that can adaptively zoom in on a video clip. The model is first provided with
densely sampled frames but in a small resolution. If some spatial details are
needed, the model can zoom in on a clip of interest with a large frame
resolution based on its reasoning until key visual information is obtained. The
whole process is implemented as a multi-step reasoning process. To train the
reasoning ability, we first finetune the model on our collected 38k
high-quality CoT data and enhance it with decoupled reinforcement finetuning.
As outcome rewards can not provide fine-grained process supervision, we
decouple multi-step reasoning into multiple single-step reasoning and optimize
the internal zoom-in ability explicitly. Experiments on long video
understanding benchmarks show that our model with the slow-fast adaptive frame
sampling mechanism achieves a great trade-off between sampling density and
frame resolutions, and LOVE-R1 outperforms our baseline Qwen2.5-VL by an
average of 3.1% points across 4 common long video understanding benchmarks.