LongVT: Стимулирование «мышления с помощью длинных видео» через нативные вызовы инструментов
LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling
November 25, 2025
Авторы: Zuhao Yang, Sudong Wang, Kaichen Zhang, Keming Wu, Sicong Leng, Yifan Zhang, Chengwei Qin, Shijian Lu, Xingxuan Li, Lidong Bing
cs.AI
Аннотация
Крупные мультимодальные модели (LMM) продемонстрировали значительный потенциал в области видео-рассуждений с использованием текстовых цепочек мыслей (Chain-of-Thought). Однако они остаются подвержены галлюцинациям, особенно при обработке длинных видео, где визуальные свидетельства разрежены и распределены во времени. Вдохновляясь тем, как человек воспринимает длинные видео — сначала бегло просматривая их глобально, а затем детально изучая релевантные фрагменты — мы представляем LongVT, сквозной агентский фреймворк, который обеспечивает «Мышление с длинными видео» посредством чередующейся Мультимодальной Цепочки Инструмент-Мысль. В частности, мы используем присущую LMM способность к временному позиционированию как нативный инструмент обрезки видео для увеличения конкретного видеофрагмента и повторной выборки кадров с более высокой детализацией. Этот цикл рассуждений от глобального к локальному продолжается до тех пор, пока ответы не будут обоснованы извлеченными визуальными свидетельствами. Учитывая недостаток детализированных данных «вопрос-ответ» (QA) для задачи рассуждений по длинным видео, мы подготовили и выпустим набор данных VideoSIAH для облегчения как обучения, так и оценки. Конкретно, наш обучающий набор состоит из 247.9 тыс. примеров для контролируемой тонкой настройки «с холодного старта» с интегрированными инструментами, 1.6 тыс. примеров для агентского обучения с подкреплением и 15.4 тыс. примеров для агентской тонкой настройки с подкреплением соответственно. Наш оценочный бенчмарк состоит из 1280 пар «вопрос-ответ», тщательно отобранных с помощью полуавтоматического конвейера данных с валидацией при участии человека. Благодаря тщательно продуманной трехэтапной стратегии обучения и обширной эмпирической проверке, LongVT стабильно превосходит существующие сильные базовые модели по четырем сложным бенчмаркам понимания и рассуждений на длинных видео. Наши код, данные и контрольные точки моделей общедоступны по адресу https://github.com/EvolvingLMMs-Lab/LongVT.
English
Large multimodal models (LMMs) have shown great potential for video reasoning with textual Chain-of-Thought. However, they remain vulnerable to hallucinations, especially when processing long-form videos where evidence is sparse and temporally dispersed. Inspired by how humans comprehend long videos - by first skimming globally and then examining relevant clips for details - we introduce LongVT, an end-to-end agentic framework that enables "Thinking with Long Videos" via interleaved Multimodal Chain-of-Tool-Thought. Specifically, we exploit LMMs' inherent temporal grounding ability as a native video cropping tool to zoom in on a specific video clip and resample finer-grained video frames. This global-to-local reasoning loop continues until answers are grounded in retrieved visual evidence. Given the scarcity of fine-grained question-answering (QA) data for the long video reasoning task, we curate and will release a data suite named VideoSIAH to facilitate both training and evaluation. Specifically, our training dataset consists of 247.9K samples for tool-integrated cold-start supervised fine-tuning, 1.6K samples for agentic reinforcement learning, and 15.4K samples for agentic reinforcement fine-tuning, respectively. Our evaluation benchmark consists of 1,280 QA pairs that are carefully curated through a semi-automatic data pipeline with human-in-the-loop validation. With a meticulously designed three-stage training strategy and extensive empirical validation, LongVT consistently outperforms existing strong baselines across four challenging long-video understanding and reasoning benchmarks. Our codes, data, and model checkpoints are publicly available at https://github.com/EvolvingLMMs-Lab/LongVT .