LongVT: Incentivando o "Pensamento com Vídeos Longos" por meio de Chamada Nativa de Ferramentas

Resumo

Os grandes modelos multimodais (LMMs) têm demonstrado grande potencial para o raciocínio em vídeo através de Cadeias de Pensamento textuais. No entanto, permanecem vulneráveis a alucinações, especialmente ao processar vídeos longos onde as evidências são esparsas e temporalmente dispersas. Inspirados pela forma como os humanos compreendem vídeos longos - primeiro analisando globalmente e depois examinando *clips* relevantes para obter detalhes - introduzimos o LongVT, uma estrutura agentiva de ponta a ponta que permite "Pensar com Vídeos Longos" através de uma Cadeia de Pensamento-Ferramenta Multimodal intercalada. Especificamente, exploramos a capacidade inerente de *grounding* temporal dos LMMs como uma ferramenta nativa de recorte de vídeo para ampliar um *clip* de vídeo específico e reamostrar *frames* de vídeo de granularidade mais fina. Este ciclo de raciocínio global-para-local continua até que as respostas estejam fundamentadas em evidências visuais recuperadas. Dada a escassez de dados de perguntas e respostas (QA) de granularidade fina para a tarefa de raciocínio em vídeos longos, curamos e disponibilizaremos um conjunto de dados denominado VideoSIAH para facilitar o treino e a avaliação. Especificamente, o nosso conjunto de dados de treino consiste em 247,9 mil amostras para *fine-tuning* supervisionado de arranque a frio integrado com ferramentas, 1,6 mil amostras para aprendizagem por reforço agentiva e 15,4 mil amostras para *fine-tuning* por reforço agentiva, respetivamente. O nosso *benchmark* de avaliação consiste em 1.280 pares de QA que foram cuidadosamente curados através de um *pipeline* de dados semiautomático com validação humana em ciclo fechado (*human-in-the-loop*). Com uma estratégia de treino de três fases meticulosamente desenhada e uma validação empírica extensiva, o LongVT supera consistentemente as *baselines* fortes existentes em quatro *benchmarks* desafiadores de compreensão e raciocínio em vídeos longos. Os nossos códigos, dados e *checkpoints* do modelo estão publicamente disponíveis em https://github.com/EvolvingLMMs-Lab/LongVT.

English

Large multimodal models (LMMs) have shown great potential for video reasoning with textual Chain-of-Thought. However, they remain vulnerable to hallucinations, especially when processing long-form videos where evidence is sparse and temporally dispersed. Inspired by how humans comprehend long videos - by first skimming globally and then examining relevant clips for details - we introduce LongVT, an end-to-end agentic framework that enables "Thinking with Long Videos" via interleaved Multimodal Chain-of-Tool-Thought. Specifically, we exploit LMMs' inherent temporal grounding ability as a native video cropping tool to zoom in on a specific video clip and resample finer-grained video frames. This global-to-local reasoning loop continues until answers are grounded in retrieved visual evidence. Given the scarcity of fine-grained question-answering (QA) data for the long video reasoning task, we curate and will release a data suite named VideoSIAH to facilitate both training and evaluation. Specifically, our training dataset consists of 247.9K samples for tool-integrated cold-start supervised fine-tuning, 1.6K samples for agentic reinforcement learning, and 15.4K samples for agentic reinforcement fine-tuning, respectively. Our evaluation benchmark consists of 1,280 QA pairs that are carefully curated through a semi-automatic data pipeline with human-in-the-loop validation. With a meticulously designed three-stage training strategy and extensive empirical validation, LongVT consistently outperforms existing strong baselines across four challenging long-video understanding and reasoning benchmarks. Our codes, data, and model checkpoints are publicly available at https://github.com/EvolvingLMMs-Lab/LongVT .

LongVT: Incentivando o "Pensamento com Vídeos Longos" por meio de Chamada Nativa de Ferramentas

LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling

Resumo

Support