ChatPaper.aiChatPaper

Conan: Aprendizaje Progresivo para Razonar como un Detective sobre Evidencia Visual a Múltiples Escalas

Conan: Progressive Learning to Reason Like a Detective over Multi-Scale Visual Evidence

October 23, 2025
Autores: Kun Ouyang, Yuanxin Liu, Linli Yao, Yishuo Cai, Hao Zhou, Jie Zhou, Fandong Meng, Xu Sun
cs.AI

Resumen

El razonamiento en video, que requiere deducción multi-paso entre fotogramas, sigue siendo un desafío importante para los modelos de lenguaje grandes multimodales (MLLMs). Si bien los métodos basados en aprendizaje por refuerzo (RL) mejoran las capacidades de razonamiento, a menudo dependen de cadenas de razonamiento puramente textuales que producen conclusiones infundadas o alucinadas. Por el contrario, los enfoques de recuperación de fotogramas introducen anclaje visual pero aún presentan dificultades en la localización precisa de evidencias. Para abordar estos desafíos, presentamos Conan, un marco para el razonamiento en video multi-paso fundamentado en evidencias. Conan identifica fotogramas contextuales y de evidencia, razona sobre pistas inter-fotogramas y decide adaptativamente cuándo concluir o explorar más. Para lograrlo, (1) construimos Conan-91K, un conjunto de datos a gran escala de trazas de razonamiento generadas automáticamente que incluye identificación de fotogramas, razonamiento evidenciado y decisión de acción, y (2) diseñamos una estrategia progresiva de arranque en frío multi-etapa combinada con un marco de entrenamiento RLVR de Identificación-Razonamiento-Acción (AIR) para mejorar conjuntamente el razonamiento visual multi-paso. Experimentos exhaustivos en seis benchmarks de razonamiento multi-paso demuestran que Conan supera al modelo base Qwen2.5-VL-7B-Instruct en un promedio de más del 10% en precisión, logrando un rendimiento de vanguardia. Además, Conan generaliza efectivamente a tareas de comprensión de videos largos, validando su fuerte escalabilidad y robustez.
English
Video reasoning, which requires multi-step deduction across frames, remains a major challenge for multimodal large language models (MLLMs). While reinforcement learning (RL)-based methods enhance reasoning capabilities, they often rely on text-only chains that yield ungrounded or hallucinated conclusions. Conversely, frame-retrieval approaches introduce visual grounding but still struggle with inaccurate evidence localization. To address these challenges, we present Conan, a framework for evidence-grounded multi-step video reasoning. Conan identifies contextual and evidence frames, reasons over cross-frame clues, and adaptively decides when to conclude or explore further. To achieve this, we (1) construct Conan-91K, a large-scale dataset of automatically generated reasoning traces that includes frame identification, evidence reasoning, and action decision, and (2) design a multi-stage progressive cold-start strategy combined with an Identification-Reasoning-Action (AIR) RLVR training framework to jointly enhance multi-step visual reasoning. Extensive experiments on six multi-step reasoning benchmarks demonstrate that Conan surpasses the baseline Qwen2.5-VL-7B-Instruct by an average of over 10% in accuracy, achieving state-of-the-art performance. Furthermore, Conan generalizes effectively to long-video understanding tasks, validating its strong scalability and robustness.
PDF112December 2, 2025