LOVE-R1: Vooruitgang in het begrijpen van lange video's met een adaptief zoom-mechanisme via meerstaps redeneren
LOVE-R1: Advancing Long Video Understanding with an Adaptive Zoom-in Mechanism via Multi-Step Reasoning
September 29, 2025
Auteurs: Shenghao Fu, Qize Yang, Yuan-Ming Li, Xihan Wei, Xiaohua Xie, Wei-Shi Zheng
cs.AI
Samenvatting
Het begrijpen van lange video's blijft een uitdaging voor recente Large Video-Language Models (LVLMs) vanwege het conflict tussen langdurig temporeel begrip en gedetailleerde ruimtelijke waarneming. LVLMs met een uniform frame-samplingmechanisme, dat frames met een gelijke frame-grootte en vaste samplingfrequentie bemonstert, offeren onvermijdelijk ofwel temporele aanwijzingen ofwel ruimtelijke details op, wat resulteert in suboptimale oplossingen. Om dit dilemma te verlichten, stellen we LOVE-R1 voor, een model dat adaptief kan inzoomen op een videoclip. Het model krijgt eerst dicht bemonsterde frames aangeboden, maar in een kleine resolutie. Als er ruimtelijke details nodig zijn, kan het model inzoomen op een clip van interesse met een hoge frameresolutie op basis van zijn redenering, totdat belangrijke visuele informatie is verkregen. Het hele proces wordt geïmplementeerd als een meerstaps redeneerproces. Om het redeneervermogen te trainen, finetunen we eerst het model op onze verzamelde 38k hoogwaardige CoT-data en versterken het met ontkoppelde reinforcement finetuning. Omdat uitkomstbeloningen geen fijnmazige procesbegeleiding kunnen bieden, ontkoppelen we meerstaps redeneren in meerdere enkelstaps redeneringen en optimaliseren we het interne inzoomvermogen expliciet. Experimenten op benchmarks voor het begrijpen van lange video's tonen aan dat ons model met het slow-fast adaptieve frame-samplingmechanisme een goede balans bereikt tussen samplingdichtheid en frameresoluties, en dat LOVE-R1 onze baseline Qwen2.5-VL gemiddeld met 3,1 procentpunt overtreft op 4 veelgebruikte benchmarks voor het begrijpen van lange video's.
English
Long video understanding is still challenging for recent Large Video-Language
Models (LVLMs) due to the conflict between long-form temporal understanding and
detailed spatial perception. LVLMs with a uniform frame sampling mechanism,
which samples frames with an equal frame size and fixed sampling rate,
inevitably sacrifice either temporal clues or spatial details, resulting in
suboptimal solutions. To mitigate this dilemma, we propose LOVE-R1, a model
that can adaptively zoom in on a video clip. The model is first provided with
densely sampled frames but in a small resolution. If some spatial details are
needed, the model can zoom in on a clip of interest with a large frame
resolution based on its reasoning until key visual information is obtained. The
whole process is implemented as a multi-step reasoning process. To train the
reasoning ability, we first finetune the model on our collected 38k
high-quality CoT data and enhance it with decoupled reinforcement finetuning.
As outcome rewards can not provide fine-grained process supervision, we
decouple multi-step reasoning into multiple single-step reasoning and optimize
the internal zoom-in ability explicitly. Experiments on long video
understanding benchmarks show that our model with the slow-fast adaptive frame
sampling mechanism achieves a great trade-off between sampling density and
frame resolutions, and LOVE-R1 outperforms our baseline Qwen2.5-VL by an
average of 3.1% points across 4 common long video understanding benchmarks.