LongVT : Encourager la « réflexion avec des vidéos longues » via l'appel natif d'outils
LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling
November 25, 2025
papers.authors: Zuhao Yang, Sudong Wang, Kaichen Zhang, Keming Wu, Sicong Leng, Yifan Zhang, Chengwei Qin, Shijian Lu, Xingxuan Li, Lidong Bing
cs.AI
papers.abstract
Les grands modèles multimodaux (LMM) ont démontré un potentiel considérable pour le raisonnement vidéo grâce à la Chaîne de Pensée textuelle. Cependant, ils restent vulnérables aux hallucinations, particulièrement lors du traitement de vidéos longues où les preuves sont rares et temporellement dispersées. Inspirés par la manière dont les humains comprennent les vidéos longues – en parcourant d'abord globalement puis en examinant les clips pertinents pour les détails – nous introduisons LongVT, un cadre agentiel de bout en bout qui permet de « Penser avec les Vidéos Longues » via une Chaîne de Pensée-Outils Multimodale entrelacée. Spécifiquement, nous exploitons la capacité inhérente d'ancrage temporel des LMM comme un outil natif de rognage vidéo pour zoomer sur un clip vidéo spécifique et rééchantillonner des images vidéo plus fines. Cette boucle de raisonnement globale-à-locale se poursuit jusqu'à ce que les réponses soient ancrées dans des preuves visuelles récupérées. Compte tenu de la rareté des données de questions-réponses (QR) granulaires pour la tâche de raisonnement sur vidéo longue, nous avons constitué et publierons une suite de données nommée VideoSIAH pour faciliter l'entraînement et l'évaluation. Spécifiquement, notre jeu de données d'entraînement se compose respectivement de 247,9 k échantillons pour le réglage fin supervisé à froid intégrant des outils, de 1,6 k échantillons pour l'apprentissage par renforcement agentique et de 15,4 k échantillons pour le réglage fin par renforcement agentique. Notre benchmark d'évaluation comprend 1 280 paires de questions-réponses soigneusement constituées via un pipeline de données semi-automatique avec validation humaine en boucle. Grâce à une stratégie d'entraînement en trois étapes méticuleusement conçue et une validation empirique extensive, LongVT surpasse constamment les solides bases de référence existantes sur quatre benchmarks exigeants de compréhension et de raisonnement sur vidéo longue. Nos codes, données et points de contrôle de modèle sont disponibles publiquement à l'adresse https://github.com/EvolvingLMMs-Lab/LongVT.
English
Large multimodal models (LMMs) have shown great potential for video reasoning with textual Chain-of-Thought. However, they remain vulnerable to hallucinations, especially when processing long-form videos where evidence is sparse and temporally dispersed. Inspired by how humans comprehend long videos - by first skimming globally and then examining relevant clips for details - we introduce LongVT, an end-to-end agentic framework that enables "Thinking with Long Videos" via interleaved Multimodal Chain-of-Tool-Thought. Specifically, we exploit LMMs' inherent temporal grounding ability as a native video cropping tool to zoom in on a specific video clip and resample finer-grained video frames. This global-to-local reasoning loop continues until answers are grounded in retrieved visual evidence. Given the scarcity of fine-grained question-answering (QA) data for the long video reasoning task, we curate and will release a data suite named VideoSIAH to facilitate both training and evaluation. Specifically, our training dataset consists of 247.9K samples for tool-integrated cold-start supervised fine-tuning, 1.6K samples for agentic reinforcement learning, and 15.4K samples for agentic reinforcement fine-tuning, respectively. Our evaluation benchmark consists of 1,280 QA pairs that are carefully curated through a semi-automatic data pipeline with human-in-the-loop validation. With a meticulously designed three-stage training strategy and extensive empirical validation, LongVT consistently outperforms existing strong baselines across four challenging long-video understanding and reasoning benchmarks. Our codes, data, and model checkpoints are publicly available at https://github.com/EvolvingLMMs-Lab/LongVT .