ChatPaper.aiChatPaper

LongVT: Anreiz für "Denken mit langen Videos" durch native Toolaufrufe

LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling

November 25, 2025
papers.authors: Zuhao Yang, Sudong Wang, Kaichen Zhang, Keming Wu, Sicong Leng, Yifan Zhang, Chengwei Qin, Shijian Lu, Xingxuan Li, Lidong Bing
cs.AI

papers.abstract

Große multimodale Modelle (LMMs) haben großes Potenzial für Video Reasoning mit textueller Chain-of-Thought gezeigt. Sie bleiben jedoch anfällig für Halluzinationen, insbesondere bei der Verarbeitung von Langvideos, bei denen Beweise spärlich und zeitlich verteilt sind. Inspiriert davon, wie Menschen lange Videos verstehen – durch erst globales Überfliegen und dann detaillierte Untersuchung relevanter Clips – führen wir LongVT ein, ein End-to-End-Agenten-Framework, das "Denken mit Langvideos" durch verschachtelte Multimodale Chain-of-Tool-Thought ermöglicht. Konkret nutzen wir die inhärente Fähigkeit von LMMs zur temporalen Verankerung als natives Video-Cropping-Tool, um auf einen bestimmten Videoclip hereinzuzoomen und fein granulierte Videobilder neu abzutasten. Diese Global-zu-Lokal-Denk-Schleife setzt sich fort, bis Antworten in abgerufenen visuellen Beweisen verankert sind. Angesichts der Knappheit an fein granulierte Frage-Antwort-(QA)-Daten für die Langvideo-Reasoning-Aufgabe kuratieren und veröffentlichen wir einen Datensatz namens VideoSIAH, um sowohl Training als auch Evaluation zu erleichtern. Unser Trainingsdatensatz besteht aus 247,9 Tausend Stichproben für toolintegriertes Kaltstart-Supervised-Fine-Tuning, 1,6 Tausend Stichproben für agentisches Reinforcement Learning bzw. 15,4 Tausend Stichproben für agentisches Reinforcement-Fine-Tuning. Unser Evaluierungs-Benchmark umfasst 1.280 QA-Paare, die durch eine halbautomatische Datenpipeline mit Human-in-the-Loop-Validierung sorgfältig erstellt wurden. Mit einer sorgfältig gestalteten Drei-Stufen-Trainingsstrategie und umfangreicher empirischer Validierung übertrifft LongVT durchgängig bestehende starke Baselines in vier anspruchsvollen Benchmarks für Langvideo-Verständnis und Reasoning. Unsere Codes, Daten und Modell-Checkpoints sind öffentlich unter https://github.com/EvolvingLMMs-Lab/LongVT verfügbar.
English
Large multimodal models (LMMs) have shown great potential for video reasoning with textual Chain-of-Thought. However, they remain vulnerable to hallucinations, especially when processing long-form videos where evidence is sparse and temporally dispersed. Inspired by how humans comprehend long videos - by first skimming globally and then examining relevant clips for details - we introduce LongVT, an end-to-end agentic framework that enables "Thinking with Long Videos" via interleaved Multimodal Chain-of-Tool-Thought. Specifically, we exploit LMMs' inherent temporal grounding ability as a native video cropping tool to zoom in on a specific video clip and resample finer-grained video frames. This global-to-local reasoning loop continues until answers are grounded in retrieved visual evidence. Given the scarcity of fine-grained question-answering (QA) data for the long video reasoning task, we curate and will release a data suite named VideoSIAH to facilitate both training and evaluation. Specifically, our training dataset consists of 247.9K samples for tool-integrated cold-start supervised fine-tuning, 1.6K samples for agentic reinforcement learning, and 15.4K samples for agentic reinforcement fine-tuning, respectively. Our evaluation benchmark consists of 1,280 QA pairs that are carefully curated through a semi-automatic data pipeline with human-in-the-loop validation. With a meticulously designed three-stage training strategy and extensive empirical validation, LongVT consistently outperforms existing strong baselines across four challenging long-video understanding and reasoning benchmarks. Our codes, data, and model checkpoints are publicly available at https://github.com/EvolvingLMMs-Lab/LongVT .
PDF1392December 3, 2025