LongVT: ネイティブツール呼び出しによる「長尺動画を用いた思考」の促進
LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling
November 25, 2025
著者: Zuhao Yang, Sudong Wang, Kaichen Zhang, Keming Wu, Sicong Leng, Yifan Zhang, Chengwei Qin, Shijian Lu, Xingxuan Li, Lidong Bing
cs.AI
要旨
大規模マルチモーダルモデル(LMM)は、テキストによる連鎖思考(Chain-of-Thought)を用いた映像推論において大きな可能性を示している。しかし、特に証拠がまばらで時間的に分散する長尺映像の処理において、幻覚(hallucination)の影響を受けやすいという課題が残る。本研究では、人間が長尺映像を理解する方法——まず全体を俯瞰し、その後関連クリップを詳細に検討する——に着想を得て、マルチモーダルなツール連鎖思考(Multimodal Chain-of-Tool-Thought)を介して「長尺映像を用いた思考」を実現するエンドツーエンドのエージェントフレームワーク「LongVT」を提案する。具体的には、LMMが本来備える時間的定位能力を映像クリッピングツールとして活用し、特定の映像クリップに焦点を当て、より細かい粒度のフレームを再サンプリングする。この大域から局所への推論ループは、回答が確かな視覚的証拠に基づくまで繰り返される。長尺映像推論タスクにおける細粒度の質疑応答(QA)データの不足を鑑み、学習と評価の両方を支援するデータスイート「VideoSIAH」を整備し公開予定である。具体的には、学習データセットは、ツール統合型コールドスタート教師ありファインチューニング用24万7,900サンプル、エージェント強化学習用1,600サンプル、エージェント強化学習ファインチューニング用1万5,400サンプルで構成される。評価ベンチマークは、人間をループに組み込んだ半自動データパイプラインで慎重に精選された1,280のQAペアから成る。緻密に設計された3段階の学習戦略と広範な実証検証により、LongVTは4つの難易度の高い長尺映像理解・推論ベンチマークにおいて、既存の強力なベースラインを一貫して上回る性能を示した。コード、データ、モデルチェックポイントはhttps://github.com/EvolvingLMMs-Lab/LongVT で公開されている。
English
Large multimodal models (LMMs) have shown great potential for video reasoning with textual Chain-of-Thought. However, they remain vulnerable to hallucinations, especially when processing long-form videos where evidence is sparse and temporally dispersed. Inspired by how humans comprehend long videos - by first skimming globally and then examining relevant clips for details - we introduce LongVT, an end-to-end agentic framework that enables "Thinking with Long Videos" via interleaved Multimodal Chain-of-Tool-Thought. Specifically, we exploit LMMs' inherent temporal grounding ability as a native video cropping tool to zoom in on a specific video clip and resample finer-grained video frames. This global-to-local reasoning loop continues until answers are grounded in retrieved visual evidence. Given the scarcity of fine-grained question-answering (QA) data for the long video reasoning task, we curate and will release a data suite named VideoSIAH to facilitate both training and evaluation. Specifically, our training dataset consists of 247.9K samples for tool-integrated cold-start supervised fine-tuning, 1.6K samples for agentic reinforcement learning, and 15.4K samples for agentic reinforcement fine-tuning, respectively. Our evaluation benchmark consists of 1,280 QA pairs that are carefully curated through a semi-automatic data pipeline with human-in-the-loop validation. With a meticulously designed three-stage training strategy and extensive empirical validation, LongVT consistently outperforms existing strong baselines across four challenging long-video understanding and reasoning benchmarks. Our codes, data, and model checkpoints are publicly available at https://github.com/EvolvingLMMs-Lab/LongVT .