LongVT: Incentivando o "Pensamento com Vídeos Longos" por meio de Chamada Nativa de Ferramentas
LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling
November 25, 2025
Autores: Zuhao Yang, Sudong Wang, Kaichen Zhang, Keming Wu, Sicong Leng, Yifan Zhang, Chengwei Qin, Shijian Lu, Xingxuan Li, Lidong Bing
cs.AI
Resumo
Os grandes modelos multimodais (LMMs) têm demonstrado grande potencial para o raciocínio em vídeo através de Cadeias de Pensamento textuais. No entanto, permanecem vulneráveis a alucinações, especialmente ao processar vídeos longos onde as evidências são esparsas e temporalmente dispersas. Inspirados pela forma como os humanos compreendem vídeos longos - primeiro analisando globalmente e depois examinando *clips* relevantes para obter detalhes - introduzimos o LongVT, uma estrutura agentiva de ponta a ponta que permite "Pensar com Vídeos Longos" através de uma Cadeia de Pensamento-Ferramenta Multimodal intercalada. Especificamente, exploramos a capacidade inerente de *grounding* temporal dos LMMs como uma ferramenta nativa de recorte de vídeo para ampliar um *clip* de vídeo específico e reamostrar *frames* de vídeo de granularidade mais fina. Este ciclo de raciocínio global-para-local continua até que as respostas estejam fundamentadas em evidências visuais recuperadas. Dada a escassez de dados de perguntas e respostas (QA) de granularidade fina para a tarefa de raciocínio em vídeos longos, curamos e disponibilizaremos um conjunto de dados denominado VideoSIAH para facilitar o treino e a avaliação. Especificamente, o nosso conjunto de dados de treino consiste em 247,9 mil amostras para *fine-tuning* supervisionado de arranque a frio integrado com ferramentas, 1,6 mil amostras para aprendizagem por reforço agentiva e 15,4 mil amostras para *fine-tuning* por reforço agentiva, respetivamente. O nosso *benchmark* de avaliação consiste em 1.280 pares de QA que foram cuidadosamente curados através de um *pipeline* de dados semiautomático com validação humana em ciclo fechado (*human-in-the-loop*). Com uma estratégia de treino de três fases meticulosamente desenhada e uma validação empírica extensiva, o LongVT supera consistentemente as *baselines* fortes existentes em quatro *benchmarks* desafiadores de compreensão e raciocínio em vídeos longos. Os nossos códigos, dados e *checkpoints* do modelo estão publicamente disponíveis em https://github.com/EvolvingLMMs-Lab/LongVT.
English
Large multimodal models (LMMs) have shown great potential for video reasoning with textual Chain-of-Thought. However, they remain vulnerable to hallucinations, especially when processing long-form videos where evidence is sparse and temporally dispersed. Inspired by how humans comprehend long videos - by first skimming globally and then examining relevant clips for details - we introduce LongVT, an end-to-end agentic framework that enables "Thinking with Long Videos" via interleaved Multimodal Chain-of-Tool-Thought. Specifically, we exploit LMMs' inherent temporal grounding ability as a native video cropping tool to zoom in on a specific video clip and resample finer-grained video frames. This global-to-local reasoning loop continues until answers are grounded in retrieved visual evidence. Given the scarcity of fine-grained question-answering (QA) data for the long video reasoning task, we curate and will release a data suite named VideoSIAH to facilitate both training and evaluation. Specifically, our training dataset consists of 247.9K samples for tool-integrated cold-start supervised fine-tuning, 1.6K samples for agentic reinforcement learning, and 15.4K samples for agentic reinforcement fine-tuning, respectively. Our evaluation benchmark consists of 1,280 QA pairs that are carefully curated through a semi-automatic data pipeline with human-in-the-loop validation. With a meticulously designed three-stage training strategy and extensive empirical validation, LongVT consistently outperforms existing strong baselines across four challenging long-video understanding and reasoning benchmarks. Our codes, data, and model checkpoints are publicly available at https://github.com/EvolvingLMMs-Lab/LongVT .