ChatPaper.aiChatPaper

LongVT: "Denken met Lange Video's" Stimuleren via Native Tool Calling

LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling

November 25, 2025
Auteurs: Zuhao Yang, Sudong Wang, Kaichen Zhang, Keming Wu, Sicong Leng, Yifan Zhang, Chengwei Qin, Shijian Lu, Xingxuan Li, Lidong Bing
cs.AI

Samenvatting

Grote multimodale modellen (LMM's) hebben groot potentieel getoond voor videoredenering met tekstuele Chain-of-Thought. Ze blijven echter kwetsbaar voor hallucinaties, vooral bij het verwerken van lange video's waarin bewijsmateriaal schaars en tijdelijk verspreid is. Geïnspireerd door hoe mensen lange video's begrijpen - eerst globaal schetsen en vervolgens relevante clips in detail onderzoeken - introduceren we LongVT, een end-to-end agentframework dat "Denken met Lange Video's" mogelijk maakt via vervlochten Multimodale Chain-of-Tool-Thought. Specifiek benutten we het inherente temporele verankeringsvermogen van LMM's als een native video-uitsnijdingstool om in te zoomen op een specifieke videoclip en fijnmazigere videoframes opnieuw te bemonsteren. Deze globaal-naar-lokaal redeneerlus gaat door totdat antwoorden zijn verankerd in opgehaald visueel bewijsmateriaal. Gezien de schaarste aan fijnmazige vraag-antwoord (QA) gegevens voor de lange-videoredeneertaak, stellen we een gegevenssuite genaamd VideoSIAH samen en zullen deze vrijgeven om zowel training als evaluatie te vergemakkelijken. Specifiek bestaat onze trainingsdataset uit respectievelijk 247,9K samples voor tool-geïntegreerde koudestart supervised fine-tuning, 1,6K samples voor agentic reinforcement learning en 15,4K samples voor agentic reinforcement fine-tuning. Onze evaluatiebenchmark bestaat uit 1.280 QA-paren die zorgvuldig zijn samengesteld via een semi-automatische datapijplijn met menselijke validatie in de loop. Met een nauwkeurig ontworpen drietraps trainingsstrategie en uitgebreide empirische validatie presteert LongVT consistent beter dan bestaande sterke baselines op vier uitdagende benchmarks voor lang-videobegrip en -redenering. Onze codes, gegevens en modelcheckpoints zijn openbaar beschikbaar op https://github.com/EvolvingLMMs-Lab/LongVT.
English
Large multimodal models (LMMs) have shown great potential for video reasoning with textual Chain-of-Thought. However, they remain vulnerable to hallucinations, especially when processing long-form videos where evidence is sparse and temporally dispersed. Inspired by how humans comprehend long videos - by first skimming globally and then examining relevant clips for details - we introduce LongVT, an end-to-end agentic framework that enables "Thinking with Long Videos" via interleaved Multimodal Chain-of-Tool-Thought. Specifically, we exploit LMMs' inherent temporal grounding ability as a native video cropping tool to zoom in on a specific video clip and resample finer-grained video frames. This global-to-local reasoning loop continues until answers are grounded in retrieved visual evidence. Given the scarcity of fine-grained question-answering (QA) data for the long video reasoning task, we curate and will release a data suite named VideoSIAH to facilitate both training and evaluation. Specifically, our training dataset consists of 247.9K samples for tool-integrated cold-start supervised fine-tuning, 1.6K samples for agentic reinforcement learning, and 15.4K samples for agentic reinforcement fine-tuning, respectively. Our evaluation benchmark consists of 1,280 QA pairs that are carefully curated through a semi-automatic data pipeline with human-in-the-loop validation. With a meticulously designed three-stage training strategy and extensive empirical validation, LongVT consistently outperforms existing strong baselines across four challenging long-video understanding and reasoning benchmarks. Our codes, data, and model checkpoints are publicly available at https://github.com/EvolvingLMMs-Lab/LongVT .
PDF1392December 3, 2025