LongVT: Incentivizzare il "Ragionamento con Video Lunghi" tramite Chiamate Native di Strumenti
LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling
November 25, 2025
Autori: Zuhao Yang, Sudong Wang, Kaichen Zhang, Keming Wu, Sicong Leng, Yifan Zhang, Chengwei Qin, Shijian Lu, Xingxuan Li, Lidong Bing
cs.AI
Abstract
I grandi modelli multimodali (LMM) hanno dimostrato un grande potenziale per il ragionamento video tramite Catena di Pensiero testuale. Tuttavia, rimangono vulnerabili ad allucinazioni, specialmente quando elaborano video di lunga durata in cui le evidenze sono scarse e temporalmente disperse. Ispirati dal modo in cui gli esseri umani comprendono video lunghi - prima sfogliando globalmente e poi esaminando clip rilevanti per i dettagli - introduciamo LongVT, un framework agentico end-to-end che abilita il "Pensare con Video Lunghi" tramite una Catena di Pensiero-Strumento Multimodale intervallata. Nello specifico, sfruttiamo l'innata capacità di grounding temporale degli LMM come strumento nativo di ritaglio video per zoomare su uno specifico clip video e ricampionare fotogrammi video a granularità più fine. Questo ciclo di ragionamento da globale a locale continua finché le risposte non sono ancorate all'evidenza visiva recuperata. Data la scarsità di dati di domanda-risposta (QA) a granularità fine per il compito di ragionamento su video lunghi, abbiamo curato e renderemo disponibile una suite di dati denominata VideoSIAH per facilitare sia l'addestramento che la valutazione. Nello specifico, il nostro dataset di addestramento è composto rispettivamente da 247.9K campioni per il fine-tuning supervisionato a freddo con strumenti integrati, 1.6K campioni per l'apprendimento per rinforzo agentico e 15.4K campioni per il fine-tuning con rinforzo agentico. Il nostro benchmark di valutazione consiste di 1.280 coppie QA che sono state accuratamente curate attraverso una pipeline di dati semi-automatica con validazione umana in the loop. Con una strategia di addestramento in tre fasi meticolosamente progettata e una vasta validazione empirica, LongVT supera costantemente i solidi baseline esistenti in quattro impegnativi benchmark di comprensione e ragionamento su video lunghi. I nostri codici, dati e checkpoint del modello sono pubblicamente disponibili all'indirizzo https://github.com/EvolvingLMMs-Lab/LongVT.
English
Large multimodal models (LMMs) have shown great potential for video reasoning with textual Chain-of-Thought. However, they remain vulnerable to hallucinations, especially when processing long-form videos where evidence is sparse and temporally dispersed. Inspired by how humans comprehend long videos - by first skimming globally and then examining relevant clips for details - we introduce LongVT, an end-to-end agentic framework that enables "Thinking with Long Videos" via interleaved Multimodal Chain-of-Tool-Thought. Specifically, we exploit LMMs' inherent temporal grounding ability as a native video cropping tool to zoom in on a specific video clip and resample finer-grained video frames. This global-to-local reasoning loop continues until answers are grounded in retrieved visual evidence. Given the scarcity of fine-grained question-answering (QA) data for the long video reasoning task, we curate and will release a data suite named VideoSIAH to facilitate both training and evaluation. Specifically, our training dataset consists of 247.9K samples for tool-integrated cold-start supervised fine-tuning, 1.6K samples for agentic reinforcement learning, and 15.4K samples for agentic reinforcement fine-tuning, respectively. Our evaluation benchmark consists of 1,280 QA pairs that are carefully curated through a semi-automatic data pipeline with human-in-the-loop validation. With a meticulously designed three-stage training strategy and extensive empirical validation, LongVT consistently outperforms existing strong baselines across four challenging long-video understanding and reasoning benchmarks. Our codes, data, and model checkpoints are publicly available at https://github.com/EvolvingLMMs-Lab/LongVT .