ChatPaper.aiChatPaper

LongVT: 네이티브 툴 호출을 통한 "긴 영상과 함께 사고하기"의 활성화

LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling

November 25, 2025
저자: Zuhao Yang, Sudong Wang, Kaichen Zhang, Keming Wu, Sicong Leng, Yifan Zhang, Chengwei Qin, Shijian Lu, Xingxuan Li, Lidong Bing
cs.AI

초록

대규모 멀티모달 모델(LMM)은 텍스트적 사고 연쇄(Chain-of-Thought)를 통한 비디오 추론에서 큰 잠재력을 보여왔습니다. 그러나 특히 증거가 희소하고 시간적으로 분산된 장편 비디오를 처리할 때 환각(hallucination) 현상에 취약한 한계가 여전히 존재합니다. 인간이 장편 비디오를 이해하는 방식—전체를 훑어본 후 관련 클립을 세부적으로 검토하는—에서 영감을 받아, 우리는 교차된 멀티모달 도구-사고 연쇄(Multimodal Chain-of-Tool-Thought)를 통해 "장편 비디오와 함께 사고하기"를 가능하게 하는 종단 간 에이전트 프레임워크인 LongVT를 소개합니다. 구체적으로, 우리는 LMM의 내재적 시간 정착(temporal grounding) 능력을 특정 비디오 클립으로 확대/축소하고 더 세분화된 비디오 프레임을 재샘플링하는 기본 비디오 크롭핑 도구로 활용합니다. 이 전역-국소(global-to-local) 추론 루프는 답변이 검색된 시각적 증거에 기반할 때까지 지속됩니다. 장편 비디오 추론 과제를 위한 세부 질의응답(QA) 데이터의 부족을 고려하여, 우리는 훈련과 평가를 모두 용이하게 하기 위해 VideoSIAH라는 데이터 세트를 정리하여 공개할 예정입니다. 구체적으로, 우리의 훈련 데이터셋은 각각 도구 통합 콜드 스타트 지도 미세 조정을 위한 247.9K 개 샘플, 에이전트 강화 학습을 위한 1.6K 개 샘플, 그리고 에이전트 강화 미세 조정을 위한 15.4K 개 샘플로 구성됩니다. 우리의 평가 벤치마크는 인간 참여 검증(Human-in-the-loop) 반자동 데이터 파이프라인을 통해 신중하게 선별된 1,280개의 QA 쌍으로 구성됩니다. 정교하게 설계된 3단계 훈련 전략과 광범위한 실증적 검증을 통해 LongVT는 네 가지 도전적인 장편 비디오 이해 및 추론 벤치마크에서 기존의 강력한 베이스라인들을 일관되게 능가합니다. 우리의 코드, 데이터 및 모델 체크포인트는 https://github.com/EvolvingLMMs-Lab/LongVT 에서 공개되었습니다.
English
Large multimodal models (LMMs) have shown great potential for video reasoning with textual Chain-of-Thought. However, they remain vulnerable to hallucinations, especially when processing long-form videos where evidence is sparse and temporally dispersed. Inspired by how humans comprehend long videos - by first skimming globally and then examining relevant clips for details - we introduce LongVT, an end-to-end agentic framework that enables "Thinking with Long Videos" via interleaved Multimodal Chain-of-Tool-Thought. Specifically, we exploit LMMs' inherent temporal grounding ability as a native video cropping tool to zoom in on a specific video clip and resample finer-grained video frames. This global-to-local reasoning loop continues until answers are grounded in retrieved visual evidence. Given the scarcity of fine-grained question-answering (QA) data for the long video reasoning task, we curate and will release a data suite named VideoSIAH to facilitate both training and evaluation. Specifically, our training dataset consists of 247.9K samples for tool-integrated cold-start supervised fine-tuning, 1.6K samples for agentic reinforcement learning, and 15.4K samples for agentic reinforcement fine-tuning, respectively. Our evaluation benchmark consists of 1,280 QA pairs that are carefully curated through a semi-automatic data pipeline with human-in-the-loop validation. With a meticulously designed three-stage training strategy and extensive empirical validation, LongVT consistently outperforms existing strong baselines across four challenging long-video understanding and reasoning benchmarks. Our codes, data, and model checkpoints are publicly available at https://github.com/EvolvingLMMs-Lab/LongVT .
PDF1392December 3, 2025