Conan: Progressief Leren om als een Detective te Redeneren over Visueel Bewijs op Meerdere Schalen
Conan: Progressive Learning to Reason Like a Detective over Multi-Scale Visual Evidence
October 23, 2025
Auteurs: Kun Ouyang, Yuanxin Liu, Linli Yao, Yishuo Cai, Hao Zhou, Jie Zhou, Fandong Meng, Xu Sun
cs.AI
Samenvatting
Videoredeneneren, dat multi-staps deductie tussen frames vereist, blijft een grote uitdaging voor multimodale grote taalmodellen (MLLM's). Hoewel op reinforcement learning (RL) gebaseerde methoden de redeneervaardigheden verbeteren, vertrouwen ze vaak op tekstuele ketens die tot ongegronde of verzonnen conclusies leiden. Frame-retrievalbenaderingen introduceren daarentegen visuele verankering, maar worstelen nog steeds met onnauwkeurige lokalisatie van bewijs. Om deze uitdagingen aan te pakken, presenteren we Conan, een raamwerk voor gegrond multi-staps videoredeneneren. Conan identificeert contextuele en bewijsframes, redeneert over aanwijzingen tussen frames en beslist adaptief wanneer moet worden geconcludeerd of verder moet worden verkend. Om dit te bereiken, (1) construeren we Conan-91K, een grootschalige dataset van automatisch gegenereerde redeneersporen die frame-identificatie, bewijsredenering en actiebeslissing omvat, en (2) ontwerpen we een multi-staps progressieve koudstartstrategie gecombineerd met een Identificatie-Redenering-Actie (IRA) RLVR-trainingsraamwerk om multi-staps visueel redeneren gezamenlijk te verbeteren. Uitgebreide experimenten op zes multi-staps redeneerbenchmarks tonen aan dat Conan de baseline Qwen2.5-VL-7B-Instruct gemiddeld met meer dan 10% in nauwkeurigheid overtreft, wat resulteert in state-of-the-art prestaties. Bovendien generaliseert Conan effectief naar lang-video-begriptaken, wat de sterke schaalbaarheid en robuustheid ervan valideert.
English
Video reasoning, which requires multi-step deduction across frames, remains a
major challenge for multimodal large language models (MLLMs). While
reinforcement learning (RL)-based methods enhance reasoning capabilities, they
often rely on text-only chains that yield ungrounded or hallucinated
conclusions. Conversely, frame-retrieval approaches introduce visual grounding
but still struggle with inaccurate evidence localization. To address these
challenges, we present Conan, a framework for evidence-grounded multi-step
video reasoning. Conan identifies contextual and evidence frames, reasons over
cross-frame clues, and adaptively decides when to conclude or explore further.
To achieve this, we (1) construct Conan-91K, a large-scale dataset of
automatically generated reasoning traces that includes frame identification,
evidence reasoning, and action decision, and (2) design a multi-stage
progressive cold-start strategy combined with an
Identification-Reasoning-Action (AIR) RLVR training framework to jointly
enhance multi-step visual reasoning. Extensive experiments on six multi-step
reasoning benchmarks demonstrate that Conan surpasses the baseline
Qwen2.5-VL-7B-Instruct by an average of over 10% in accuracy, achieving
state-of-the-art performance. Furthermore, Conan generalizes effectively to
long-video understanding tasks, validating its strong scalability and
robustness.