ChatPaper.aiChatPaper

Conan: Apprendimento Progressivo per Ragionare come un Detective su Prove Visive a Scala Multipla

Conan: Progressive Learning to Reason Like a Detective over Multi-Scale Visual Evidence

October 23, 2025
Autori: Kun Ouyang, Yuanxin Liu, Linli Yao, Yishuo Cai, Hao Zhou, Jie Zhou, Fandong Meng, Xu Sun
cs.AI

Abstract

Il ragionamento video, che richiede deduzioni multi-step tra frame, rimane una sfida significativa per i modelli linguistici multimodali di grandi dimensioni (MLLM). Sebbene i metodi basati sull'apprendimento per rinforzo (RL) potenzino le capacità di ragionamento, essi spesso si affidano a catene testuali che producono conclusioni infondate o allucinate. Al contrario, gli approcci basati sul retrieval di frame introducono un ancoraggio visivo, ma continuano a lottare con una localizzazione imprecisa delle evidenze. Per affrontare queste sfide, presentiamo Conan, un framework per il ragionamento video multi-step basato su evidenze. Conan identifica frame contestuali e probatori, ragiona su indizi cross-frame e decide in modo adattivo quando concludere o esplorare ulteriormente. Per ottenere ciò, (1) costruiamo Conan-91K, un dataset su larga scala di tracce di ragionamento generate automaticamente che include identificazione dei frame, ragionamento sulle evidenze e decisione delle azioni, e (2) progettiamo una strategia di cold-start progressiva multi-stage combinata con un framework di addestramento RLVR Identificazione-Ragionamento-Azione (AIR) per potenziare congiuntamente il ragionamento visivo multi-step. Esperimenti estesi su sei benchmark di ragionamento multi-step dimostrano che Conan supera il baseline Qwen2.5-VL-7B-Instruct in media di oltre il 10% in accuratezza, raggiungendo prestazioni state-of-the-art. Inoltre, Conan generalizza efficacemente ai task di comprensione di video lunghi, validando la sua forte scalabilità e robustezza.
English
Video reasoning, which requires multi-step deduction across frames, remains a major challenge for multimodal large language models (MLLMs). While reinforcement learning (RL)-based methods enhance reasoning capabilities, they often rely on text-only chains that yield ungrounded or hallucinated conclusions. Conversely, frame-retrieval approaches introduce visual grounding but still struggle with inaccurate evidence localization. To address these challenges, we present Conan, a framework for evidence-grounded multi-step video reasoning. Conan identifies contextual and evidence frames, reasons over cross-frame clues, and adaptively decides when to conclude or explore further. To achieve this, we (1) construct Conan-91K, a large-scale dataset of automatically generated reasoning traces that includes frame identification, evidence reasoning, and action decision, and (2) design a multi-stage progressive cold-start strategy combined with an Identification-Reasoning-Action (AIR) RLVR training framework to jointly enhance multi-step visual reasoning. Extensive experiments on six multi-step reasoning benchmarks demonstrate that Conan surpasses the baseline Qwen2.5-VL-7B-Instruct by an average of over 10% in accuracy, achieving state-of-the-art performance. Furthermore, Conan generalizes effectively to long-video understanding tasks, validating its strong scalability and robustness.
PDF112December 2, 2025