ChatPaper.aiChatPaper

LongVT: Incentivizando el "Pensamiento con Videos Largos" mediante la Llamada Nativa de Herramientas

LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling

November 25, 2025
Autores: Zuhao Yang, Sudong Wang, Kaichen Zhang, Keming Wu, Sicong Leng, Yifan Zhang, Chengwei Qin, Shijian Lu, Xingxuan Li, Lidong Bing
cs.AI

Resumen

Los modelos multimodales grandes (LMMs) han demostrado un gran potencial para el razonamiento en vídeo mediante Cadenas de Pensamiento textuales. Sin embargo, siguen siendo vulnerables a las alucinaciones, especialmente al procesar vídeos de larga duración donde la evidencia es escasa y está temporalmente dispersa. Inspirados en cómo los humanos comprenden vídeos largos —primero hojeando globalmente y luego examinando fragmentos relevantes para obtener detalles— presentamos LongVT, un marco agente de extremo a extremo que permite "Pensar con Vídeos Largos" mediante una Cadena de Pensamiento-Herramienta multimodal intercalada. Específicamente, aprovechamos la capacidad inherente de los LMMs para la fundamentación temporal como una herramienta nativa de recorte de vídeo para hacer zoom en un fragmento específico y remuestrear fotogramas de vídeo más detallados. Este bucle de razonamiento global-a-local continúa hasta que las respuestas se fundamentan en la evidencia visual recuperada. Dada la escasez de datos de preguntas y respuestas (QA) detallados para la tarea de razonamiento en vídeos largos, hemos creado y liberaremos un conjunto de datos llamado VideoSIAH para facilitar tanto el entrenamiento como la evaluación. En concreto, nuestro conjunto de datos de entrenamiento consta de 247,9K muestras para el ajuste fino supervisado en frío con herramientas integradas, 1,6K muestras para el aprendizaje por refuerzo agente y 15,4K muestras para el ajuste fino por refuerzo agente, respectivamente. Nuestro benchmark de evaluación consta de 1.280 pares de QA que han sido cuidadosamente seleccionados mediante un pipeline de datos semi-automático con validación humana en el bucle. Con una estrategia de entrenamiento meticulosamente diseñada en tres etapas y una extensa validación empírica, LongVT supera consistentemente a las líneas base sólidas existentes en cuatro benchmarks desafiantes de comprensión y razonamiento en vídeos largos. Nuestros códigos, datos y puntos de control del modelo están disponibles públicamente en https://github.com/EvolvingLMMs-Lab/LongVT.
English
Large multimodal models (LMMs) have shown great potential for video reasoning with textual Chain-of-Thought. However, they remain vulnerable to hallucinations, especially when processing long-form videos where evidence is sparse and temporally dispersed. Inspired by how humans comprehend long videos - by first skimming globally and then examining relevant clips for details - we introduce LongVT, an end-to-end agentic framework that enables "Thinking with Long Videos" via interleaved Multimodal Chain-of-Tool-Thought. Specifically, we exploit LMMs' inherent temporal grounding ability as a native video cropping tool to zoom in on a specific video clip and resample finer-grained video frames. This global-to-local reasoning loop continues until answers are grounded in retrieved visual evidence. Given the scarcity of fine-grained question-answering (QA) data for the long video reasoning task, we curate and will release a data suite named VideoSIAH to facilitate both training and evaluation. Specifically, our training dataset consists of 247.9K samples for tool-integrated cold-start supervised fine-tuning, 1.6K samples for agentic reinforcement learning, and 15.4K samples for agentic reinforcement fine-tuning, respectively. Our evaluation benchmark consists of 1,280 QA pairs that are carefully curated through a semi-automatic data pipeline with human-in-the-loop validation. With a meticulously designed three-stage training strategy and extensive empirical validation, LongVT consistently outperforms existing strong baselines across four challenging long-video understanding and reasoning benchmarks. Our codes, data, and model checkpoints are publicly available at https://github.com/EvolvingLMMs-Lab/LongVT .
PDF1392December 3, 2025