ChatPaper.aiChatPaper

Conan: Progressives Lernen, wie ein Detektiv über mehrskalige visuelle Beweise zu schließen

Conan: Progressive Learning to Reason Like a Detective over Multi-Scale Visual Evidence

October 23, 2025
papers.authors: Kun Ouyang, Yuanxin Liu, Linli Yao, Yishuo Cai, Hao Zhou, Jie Zhou, Fandong Meng, Xu Sun
cs.AI

papers.abstract

Video Reasoning, das mehrstufige Deduktion über Bildsequenzen hinweg erfordert, bleibt eine große Herausforderung für multimodale große Sprachmodelle (MLLMs). Während Methoden auf Basis von bestärkendem Lernen (Reinforcement Learning, RL) die Reasoning-Fähigkeiten verbessern, stützen sie sich oft auf rein textbasierte Ketten, die zu unbegründeten oder halluzinierten Schlussfolgerungen führen. Frame-Retrieval-Ansätze hingegen führen visuelle Verankerung ein, kämpfen aber weiterhin mit ungenauer Evidenzlokalisierung. Um diese Herausforderungen zu adressieren, stellen wir Conan vor, einen Framework für evidenzbasiertes, mehrstufiges Video Reasoning. Conan identifiziert kontextuelle und Evidenz-Frames, schlussfolgert aus übergreifenden Hinweisen und entscheidet adaptiv, wann abgeschlossen oder weiter explorativ gesucht werden soll. Um dies zu erreichen, (1) konstruieren wir Conan-91K, einen groß angelegten, automatisch generierten Datensatz von Reasoning-Pfaden, der Frame-Identifikation, Evidenz-Argumentation und Aktionsentscheidung umfasst, und (2) entwerfen wir eine mehrstufige progressive Cold-Start-Strategie kombiniert mit einem Identifikation-Reasoning-Aktion (AIR) RLVR-Trainingsframework, um mehrstufiges visuelles Reasoning gemeinsam zu verbessern. Umfangreiche Experimente auf sechs Multi-Step-Reasoning-Benchmarks zeigen, dass Conan die Baseline Qwen2.5-VL-7B-Instruct im Durchschnitt um über 10 % in der Genauigkeit übertrifft und state-of-the-art Leistung erzielt. Darüber hinaus generalisiert Conan effektiv auf Langvideo-Verständnisaufgaben, was seine hohe Skalierbarkeit und Robustheit validiert.
English
Video reasoning, which requires multi-step deduction across frames, remains a major challenge for multimodal large language models (MLLMs). While reinforcement learning (RL)-based methods enhance reasoning capabilities, they often rely on text-only chains that yield ungrounded or hallucinated conclusions. Conversely, frame-retrieval approaches introduce visual grounding but still struggle with inaccurate evidence localization. To address these challenges, we present Conan, a framework for evidence-grounded multi-step video reasoning. Conan identifies contextual and evidence frames, reasons over cross-frame clues, and adaptively decides when to conclude or explore further. To achieve this, we (1) construct Conan-91K, a large-scale dataset of automatically generated reasoning traces that includes frame identification, evidence reasoning, and action decision, and (2) design a multi-stage progressive cold-start strategy combined with an Identification-Reasoning-Action (AIR) RLVR training framework to jointly enhance multi-step visual reasoning. Extensive experiments on six multi-step reasoning benchmarks demonstrate that Conan surpasses the baseline Qwen2.5-VL-7B-Instruct by an average of over 10% in accuracy, achieving state-of-the-art performance. Furthermore, Conan generalizes effectively to long-video understanding tasks, validating its strong scalability and robustness.
PDF112December 2, 2025