Конан: Прогрессивное обучение логическому мышлению как у детектива на основе визуальных данных различного масштаба
Conan: Progressive Learning to Reason Like a Detective over Multi-Scale Visual Evidence
October 23, 2025
Авторы: Kun Ouyang, Yuanxin Liu, Linli Yao, Yishuo Cai, Hao Zhou, Jie Zhou, Fandong Meng, Xu Sun
cs.AI
Аннотация
Видео-рассуждение, требующее многошагового вывода по кадрам, остается серьезной проблемой для мультимодальных больших языковых моделей (MLLM). Хотя методы на основе обучения с подкреплением (RL) улучшают способности к рассуждению, они часто полагаются на текстовые цепочки, которые приводят к неподтвержденным или галлюцинированным выводам. С другой стороны, подходы с извлечением кадров обеспечивают визуальную привязку, но все же сталкиваются с трудностями в точной локализации доказательств. Для решения этих проблем мы представляем Conan — фреймворк для обоснованного многошагового видео-рассуждения. Conan идентифицирует контекстные и доказательные кадры, анализирует межкадровые связи и адаптивно решает, когда завершить вывод или продолжить исследование. Для этого мы (1) создали Conan-91K, крупномасштабный набор автоматически сгенерированных трасс рассуждений, включающий идентификацию кадров, анализ доказательств и принятие решений о действиях, и (2) разработали многоэтапную прогрессивную стратегию "холодного старта" в сочетании с RLVR-фреймворком обучения Identification-Reasoning-Action (AIR) для совместного улучшения многошагового визуального рассуждения. Многочисленные эксперименты на шести бенчмарках многошагового рассуждения показывают, что Conan превосходит базовую модель Qwen2.5-VL-7B-Instruct в среднем более чем на 10% по точности, демонстрируя наилучшие результаты. Кроме того, Conan эффективно обобщается на задачи понимания длинных видео, что подтверждает его высокую масштабируемость и устойчивость.
English
Video reasoning, which requires multi-step deduction across frames, remains a
major challenge for multimodal large language models (MLLMs). While
reinforcement learning (RL)-based methods enhance reasoning capabilities, they
often rely on text-only chains that yield ungrounded or hallucinated
conclusions. Conversely, frame-retrieval approaches introduce visual grounding
but still struggle with inaccurate evidence localization. To address these
challenges, we present Conan, a framework for evidence-grounded multi-step
video reasoning. Conan identifies contextual and evidence frames, reasons over
cross-frame clues, and adaptively decides when to conclude or explore further.
To achieve this, we (1) construct Conan-91K, a large-scale dataset of
automatically generated reasoning traces that includes frame identification,
evidence reasoning, and action decision, and (2) design a multi-stage
progressive cold-start strategy combined with an
Identification-Reasoning-Action (AIR) RLVR training framework to jointly
enhance multi-step visual reasoning. Extensive experiments on six multi-step
reasoning benchmarks demonstrate that Conan surpasses the baseline
Qwen2.5-VL-7B-Instruct by an average of over 10% in accuracy, achieving
state-of-the-art performance. Furthermore, Conan generalizes effectively to
long-video understanding tasks, validating its strong scalability and
robustness.