LOVE-R1: Avançando na Compreensão de Vídeos Longos com um Mecanismo de Zoom Adaptativo via Raciocínio em Múltiplos Passos
LOVE-R1: Advancing Long Video Understanding with an Adaptive Zoom-in Mechanism via Multi-Step Reasoning
September 29, 2025
Autores: Shenghao Fu, Qize Yang, Yuan-Ming Li, Xihan Wei, Xiaohua Xie, Wei-Shi Zheng
cs.AI
Resumo
A compreensão de vídeos longos ainda é um desafio para os recentes Modelos de Vídeo-Linguagem de Grande Escala (LVLMs, na sigla em inglês) devido ao conflito entre a compreensão temporal de longa duração e a percepção espacial detalhada. LVLMs com um mecanismo de amostragem uniforme de quadros, que amostra quadros com tamanho igual e taxa de amostragem fixa, inevitavelmente sacrificam pistas temporais ou detalhes espaciais, resultando em soluções subótimas. Para mitigar esse dilema, propomos o LOVE-R1, um modelo que pode ampliar adaptativamente um clipe de vídeo. O modelo é inicialmente fornecido com quadros densamente amostrados, mas em uma resolução pequena. Se alguns detalhes espaciais forem necessários, o modelo pode ampliar um clipe de interesse com uma grande resolução de quadro com base em seu raciocínio até que informações visuais-chave sejam obtidas. Todo o processo é implementado como um processo de raciocínio em múltiplas etapas. Para treinar a capacidade de raciocínio, primeiro ajustamos o modelo em nossos 38k dados CoT de alta qualidade coletados e o aprimoramos com ajuste fino de reforço desacoplado. Como recompensas de resultado não podem fornecer supervisão de processo em nível granular, desacoplamos o raciocínio em múltiplas etapas em vários raciocínios de etapa única e otimizamos explicitamente a capacidade interna de ampliação. Experimentos em benchmarks de compreensão de vídeos longos mostram que nosso modelo com o mecanismo de amostragem de quadros adaptativo lento-rápido alcança um ótimo equilíbrio entre densidade de amostragem e resoluções de quadro, e o LOVE-R1 supera nossa linha de base Qwen2.5-VL em uma média de 3,1 pontos percentuais em 4 benchmarks comuns de compreensão de vídeos longos.
English
Long video understanding is still challenging for recent Large Video-Language
Models (LVLMs) due to the conflict between long-form temporal understanding and
detailed spatial perception. LVLMs with a uniform frame sampling mechanism,
which samples frames with an equal frame size and fixed sampling rate,
inevitably sacrifice either temporal clues or spatial details, resulting in
suboptimal solutions. To mitigate this dilemma, we propose LOVE-R1, a model
that can adaptively zoom in on a video clip. The model is first provided with
densely sampled frames but in a small resolution. If some spatial details are
needed, the model can zoom in on a clip of interest with a large frame
resolution based on its reasoning until key visual information is obtained. The
whole process is implemented as a multi-step reasoning process. To train the
reasoning ability, we first finetune the model on our collected 38k
high-quality CoT data and enhance it with decoupled reinforcement finetuning.
As outcome rewards can not provide fine-grained process supervision, we
decouple multi-step reasoning into multiple single-step reasoning and optimize
the internal zoom-in ability explicitly. Experiments on long video
understanding benchmarks show that our model with the slow-fast adaptive frame
sampling mechanism achieves a great trade-off between sampling density and
frame resolutions, and LOVE-R1 outperforms our baseline Qwen2.5-VL by an
average of 3.1% points across 4 common long video understanding benchmarks.