コナン:多様な視覚的証拠に基づく探偵的推論の段階的学習
Conan: Progressive Learning to Reason Like a Detective over Multi-Scale Visual Evidence
October 23, 2025
著者: Kun Ouyang, Yuanxin Liu, Linli Yao, Yishuo Cai, Hao Zhou, Jie Zhou, Fandong Meng, Xu Sun
cs.AI
要旨
フレーム間の多段階推論を必要とする映像推論は、マルチモーダル大規模言語モデル(MLLMs)における主要な課題である。強化学習(RL)ベースの手法は推論能力を強化するが、テキストのみの連鎖に依存しがちで、根拠のない結論や虚構の結論を生み出すことが多い。一方、フレーム検索手法は視覚的接地を導入するものの、不正確な証拠の局在化に依然として苦戦している。これらの課題に対処するため、我々は証拠に基づく多段階映像推論フレームワーク「Conan」を提案する。Conanは文脈フレームと証拠フレームを識別し、フレーム間の手がかりを推論し、結論を出すかさらなる探索を行うかを適応的に決定する。これを実現するため、(1)フレーム識別・証拠推論・行動決定を含む自動生成された大規模推論トレースデータセットConan-91Kを構築し、(2)多段階視覚推論を共同で強化するため、多段階漸進的コールドスタート戦略とIdentification-Reasoning-Action(AIR)RLVRトレーニングフレームワークを設計した。6つの多段階推論ベンチマークにおける大規模実験により、ConanがベースラインのQwen2.5-VL-7B-Instructを平均精度で10%以上上回り、最先端の性能を達成することを実証した。さらにConanは長映像理解タスクへ効果的に汎化し、その強力な拡張性と頑健性を検証した。
English
Video reasoning, which requires multi-step deduction across frames, remains a
major challenge for multimodal large language models (MLLMs). While
reinforcement learning (RL)-based methods enhance reasoning capabilities, they
often rely on text-only chains that yield ungrounded or hallucinated
conclusions. Conversely, frame-retrieval approaches introduce visual grounding
but still struggle with inaccurate evidence localization. To address these
challenges, we present Conan, a framework for evidence-grounded multi-step
video reasoning. Conan identifies contextual and evidence frames, reasons over
cross-frame clues, and adaptively decides when to conclude or explore further.
To achieve this, we (1) construct Conan-91K, a large-scale dataset of
automatically generated reasoning traces that includes frame identification,
evidence reasoning, and action decision, and (2) design a multi-stage
progressive cold-start strategy combined with an
Identification-Reasoning-Action (AIR) RLVR training framework to jointly
enhance multi-step visual reasoning. Extensive experiments on six multi-step
reasoning benchmarks demonstrate that Conan surpasses the baseline
Qwen2.5-VL-7B-Instruct by an average of over 10% in accuracy, achieving
state-of-the-art performance. Furthermore, Conan generalizes effectively to
long-video understanding tasks, validating its strong scalability and
robustness.