ChatPaper.aiChatPaper

LOVE-R1: Avanzando en la Comprensión de Videos Largos con un Mecanismo de Zoom Adaptativo mediante Razonamiento Multi-Etapas

LOVE-R1: Advancing Long Video Understanding with an Adaptive Zoom-in Mechanism via Multi-Step Reasoning

September 29, 2025
Autores: Shenghao Fu, Qize Yang, Yuan-Ming Li, Xihan Wei, Xiaohua Xie, Wei-Shi Zheng
cs.AI

Resumen

La comprensión de videos largos sigue siendo un desafío para los recientes Modelos de Video-Lenguaje a Gran Escala (LVLMs, por sus siglas en inglés) debido al conflicto entre la comprensión temporal de larga duración y la percepción espacial detallada. Los LVLMs que utilizan un mecanismo de muestreo uniforme de fotogramas, el cual selecciona fotogramas con un tamaño de cuadro igual y una tasa de muestreo fija, inevitablemente sacrifican ya sea las pistas temporales o los detalles espaciales, lo que resulta en soluciones subóptimas. Para mitigar este dilema, proponemos LOVE-R1, un modelo que puede acercarse de manera adaptativa a un clip de video. El modelo primero recibe fotogramas muestreados de manera densa pero en una resolución pequeña. Si se necesitan algunos detalles espaciales, el modelo puede acercarse a un clip de interés con una resolución de cuadro grande basándose en su razonamiento hasta obtener la información visual clave. Todo el proceso se implementa como un proceso de razonamiento de múltiples pasos. Para entrenar la capacidad de razonamiento, primero ajustamos el modelo en nuestros 38k datos de alta calidad de CoT recopilados y lo mejoramos con un ajuste fino de refuerzo desacoplado. Dado que las recompensas de resultados no pueden proporcionar una supervisión de proceso detallada, desacoplamos el razonamiento de múltiples pasos en múltiples razonamientos de un solo paso y optimizamos explícitamente la capacidad interna de acercamiento. Los experimentos en puntos de referencia de comprensión de videos largos muestran que nuestro modelo con el mecanismo de muestreo de fotogramas adaptativo lento-rápido logra un gran equilibrio entre la densidad de muestreo y las resoluciones de cuadro, y LOVE-R1 supera a nuestra línea base Qwen2.5-VL en un promedio de 3.1 puntos porcentuales en 4 puntos de referencia comunes de comprensión de videos largos.
English
Long video understanding is still challenging for recent Large Video-Language Models (LVLMs) due to the conflict between long-form temporal understanding and detailed spatial perception. LVLMs with a uniform frame sampling mechanism, which samples frames with an equal frame size and fixed sampling rate, inevitably sacrifice either temporal clues or spatial details, resulting in suboptimal solutions. To mitigate this dilemma, we propose LOVE-R1, a model that can adaptively zoom in on a video clip. The model is first provided with densely sampled frames but in a small resolution. If some spatial details are needed, the model can zoom in on a clip of interest with a large frame resolution based on its reasoning until key visual information is obtained. The whole process is implemented as a multi-step reasoning process. To train the reasoning ability, we first finetune the model on our collected 38k high-quality CoT data and enhance it with decoupled reinforcement finetuning. As outcome rewards can not provide fine-grained process supervision, we decouple multi-step reasoning into multiple single-step reasoning and optimize the internal zoom-in ability explicitly. Experiments on long video understanding benchmarks show that our model with the slow-fast adaptive frame sampling mechanism achieves a great trade-off between sampling density and frame resolutions, and LOVE-R1 outperforms our baseline Qwen2.5-VL by an average of 3.1% points across 4 common long video understanding benchmarks.
PDF52September 30, 2025