LOVE-R1: Migliorare la comprensione di video lunghi con un meccanismo di zoom adattivo tramite ragionamento a più passi
LOVE-R1: Advancing Long Video Understanding with an Adaptive Zoom-in Mechanism via Multi-Step Reasoning
September 29, 2025
Autori: Shenghao Fu, Qize Yang, Yuan-Ming Li, Xihan Wei, Xiaohua Xie, Wei-Shi Zheng
cs.AI
Abstract
La comprensione di video lunghi rimane una sfida per i recenti Modelli Video-Linguaggio di Grande Dimensione (LVLM) a causa del conflitto tra la comprensione temporale di lungo formato e la percezione spaziale dettagliata. Gli LVLM con un meccanismo di campionamento uniforme dei fotogrammi, che campiona fotogrammi con una dimensione uguale e una frequenza di campionamento fissa, sacrificano inevitabilmente o gli indizi temporali o i dettagli spaziali, portando a soluzioni subottimali. Per mitigare questo dilemma, proponiamo LOVE-R1, un modello in grado di ingrandire adattivamente un clip video. Il modello viene prima fornito con fotogrammi campionati densamente ma in una risoluzione ridotta. Se sono necessari alcuni dettagli spaziali, il modello può ingrandire un clip di interesse con una risoluzione dei fotogrammi maggiore basandosi sul suo ragionamento fino a ottenere le informazioni visive chiave. L'intero processo è implementato come un processo di ragionamento a più passi. Per addestrare la capacità di ragionamento, prima ottimizziamo il modello sui nostri 38k dati CoT di alta qualità raccolti e lo potenziamo con un fine-tuning di rinforzo disaccoppiato. Poiché le ricompense finali non possono fornire una supervisione fine del processo, disaccoppiamo il ragionamento a più passi in più ragionamenti a singolo passo e ottimizziamo esplicitamente la capacità interna di ingrandimento. Gli esperimenti sui benchmark di comprensione di video lunghi mostrano che il nostro modello con il meccanismo di campionamento adattivo lento-veloce dei fotogrammi raggiunge un ottimo compromesso tra densità di campionamento e risoluzioni dei fotogrammi, e LOVE-R1 supera la nostra baseline Qwen2.5-VL di una media del 3,1% su 4 comuni benchmark di comprensione di video lunghi.
English
Long video understanding is still challenging for recent Large Video-Language
Models (LVLMs) due to the conflict between long-form temporal understanding and
detailed spatial perception. LVLMs with a uniform frame sampling mechanism,
which samples frames with an equal frame size and fixed sampling rate,
inevitably sacrifice either temporal clues or spatial details, resulting in
suboptimal solutions. To mitigate this dilemma, we propose LOVE-R1, a model
that can adaptively zoom in on a video clip. The model is first provided with
densely sampled frames but in a small resolution. If some spatial details are
needed, the model can zoom in on a clip of interest with a large frame
resolution based on its reasoning until key visual information is obtained. The
whole process is implemented as a multi-step reasoning process. To train the
reasoning ability, we first finetune the model on our collected 38k
high-quality CoT data and enhance it with decoupled reinforcement finetuning.
As outcome rewards can not provide fine-grained process supervision, we
decouple multi-step reasoning into multiple single-step reasoning and optimize
the internal zoom-in ability explicitly. Experiments on long video
understanding benchmarks show that our model with the slow-fast adaptive frame
sampling mechanism achieves a great trade-off between sampling density and
frame resolutions, and LOVE-R1 outperforms our baseline Qwen2.5-VL by an
average of 3.1% points across 4 common long video understanding benchmarks.