Conan : Apprentissage progressif pour raisonner comme un détective sur des preuves visuelles multi-échelles
Conan: Progressive Learning to Reason Like a Detective over Multi-Scale Visual Evidence
October 23, 2025
papers.authors: Kun Ouyang, Yuanxin Liu, Linli Yao, Yishuo Cai, Hao Zhou, Jie Zhou, Fandong Meng, Xu Sun
cs.AI
papers.abstract
Le raisonnement vidéo, qui nécessite une déduction multi-étapes entre les images, reste un défi majeur pour les grands modèles de langage multimodaux (MLLM). Si les méthodes basées sur l'apprentissage par renforcement (RL) améliorent les capacités de raisonnement, elles reposent souvent sur des chaînes textuelles produisant des conclusions non fondées ou hallucinées. À l'inverse, les approches par récupération d'images introduisent un ancrage visuel mais peinent encore avec une localisation imprécise des preuves. Pour relever ces défis, nous présentons Conan, un cadre pour le raisonnement vidéo multi-étapes fondé sur des preuves. Conan identifie les images contextuelles et probantes, raisonne sur les indices inter-images et décide adaptativement quand conclure ou explorer davantage. Pour y parvenir, nous (1) construisons Conan-91K, un jeu de données à grande échelle de traces de raisonnement générées automatiquement incluant l'identification d'images, le raisonnement probant et la décision d'action, et (2) concevons une stratégie progressive multi-étapes de démarrage à froid combinée à un cadre d'entraînement RLVR Identification-Raisonnement-Action (AIR) pour améliorer conjointement le raisonnement visuel multi-étapes. Des expériences poussées sur six benchmarks de raisonnement séquentiel démontrent que Conan surpasse le modèle de référence Qwen2.5-VL-7B-Instruct de plus de 10% en précision moyenne, atteignant des performances state-of-the-art. De plus, Conan généralise efficacement aux tâches de compréhension de vidéos longues, validant sa forte extensibilité et robustesse.
English
Video reasoning, which requires multi-step deduction across frames, remains a
major challenge for multimodal large language models (MLLMs). While
reinforcement learning (RL)-based methods enhance reasoning capabilities, they
often rely on text-only chains that yield ungrounded or hallucinated
conclusions. Conversely, frame-retrieval approaches introduce visual grounding
but still struggle with inaccurate evidence localization. To address these
challenges, we present Conan, a framework for evidence-grounded multi-step
video reasoning. Conan identifies contextual and evidence frames, reasons over
cross-frame clues, and adaptively decides when to conclude or explore further.
To achieve this, we (1) construct Conan-91K, a large-scale dataset of
automatically generated reasoning traces that includes frame identification,
evidence reasoning, and action decision, and (2) design a multi-stage
progressive cold-start strategy combined with an
Identification-Reasoning-Action (AIR) RLVR training framework to jointly
enhance multi-step visual reasoning. Extensive experiments on six multi-step
reasoning benchmarks demonstrate that Conan surpasses the baseline
Qwen2.5-VL-7B-Instruct by an average of over 10% in accuracy, achieving
state-of-the-art performance. Furthermore, Conan generalizes effectively to
long-video understanding tasks, validating its strong scalability and
robustness.