ChatPaper.aiChatPaper

코난: 다중 규모 시각적 증거를 탐정처럼 추론하는 점진적 학습

Conan: Progressive Learning to Reason Like a Detective over Multi-Scale Visual Evidence

October 23, 2025
저자: Kun Ouyang, Yuanxin Liu, Linli Yao, Yishuo Cai, Hao Zhou, Jie Zhou, Fandong Meng, Xu Sun
cs.AI

초록

프레임 간 다단계 추론을 요구하는 비디오 추론은 멀티모달 대규모 언어 모델(MLLM)의 주요 과제로 남아 있습니다. 강화 학습(RL) 기반 방법은 추론 능력을 향상시키지만, 텍스트만으로 구성된 사슬에 의존하여 근거가 부족하거나 허구적인 결론을 도출하는 경우가 많습니다. 반면 프레임 검색 접근법은 시각적 근거를 도입하지만 여전히 정확하지 않은 증거 위치 특정에 어려움을 겪습니다. 이러한 문제를 해결하기 위해 우리는 증거 기반 다단계 비디오 추론 프레임워크인 Conan을 제시합니다. Conan은 맥락 프레임과 증거 프레임을 식별하고 프레임 간 단서를 추론하며, 적응적으로 결론을 내릴지 또는 추가 탐색을 할지를 결정합니다. 이를 위해 우리는 (1) 프레임 식별, 증거 추론, 행동 결정을 포함한 자동 생성 추론 흔적의 대규모 데이터셋인 Conan-91K를 구축하고, (2) 다단계 시각적 추론을 공동으로 향상시키기 위해 다단계 점진적 콜드 스타트 전략과 Identification-Reasoning-Action(IRA) RLVR 훈련 프레임워크를 결합했습니다. 6개의 다단계 추론 벤치마크에서 진행한 폭넓은 실험 결과, Conan은 기준 모델인 Qwen2.5-VL-7B-Instruct보다 평균 정확도에서 10% 이상 우수한 성능을 보여 최첨단 수준을 달성했습니다. 더 나아가 Conan은 장영상 이해 작업에도 효과적으로 일반화되어 뛰어난 확장성과 강건성을 입증했습니다.
English
Video reasoning, which requires multi-step deduction across frames, remains a major challenge for multimodal large language models (MLLMs). While reinforcement learning (RL)-based methods enhance reasoning capabilities, they often rely on text-only chains that yield ungrounded or hallucinated conclusions. Conversely, frame-retrieval approaches introduce visual grounding but still struggle with inaccurate evidence localization. To address these challenges, we present Conan, a framework for evidence-grounded multi-step video reasoning. Conan identifies contextual and evidence frames, reasons over cross-frame clues, and adaptively decides when to conclude or explore further. To achieve this, we (1) construct Conan-91K, a large-scale dataset of automatically generated reasoning traces that includes frame identification, evidence reasoning, and action decision, and (2) design a multi-stage progressive cold-start strategy combined with an Identification-Reasoning-Action (AIR) RLVR training framework to jointly enhance multi-step visual reasoning. Extensive experiments on six multi-step reasoning benchmarks demonstrate that Conan surpasses the baseline Qwen2.5-VL-7B-Instruct by an average of over 10% in accuracy, achieving state-of-the-art performance. Furthermore, Conan generalizes effectively to long-video understanding tasks, validating its strong scalability and robustness.
PDF112December 2, 2025