ChatPaper.aiChatPaper

Conan: Aprendizado Progressivo para Raciocinar como um Detetive com Evidências Visuais em Múltiplas Escalas

Conan: Progressive Learning to Reason Like a Detective over Multi-Scale Visual Evidence

October 23, 2025
Autores: Kun Ouyang, Yuanxin Liu, Linli Yao, Yishuo Cai, Hao Zhou, Jie Zhou, Fandong Meng, Xu Sun
cs.AI

Resumo

A raciocínio em vídeo, que exige dedução multietapas entre frames, continua a ser um grande desafio para os modelos de linguagem grandes multimodais (MLLMs). Embora os métodos baseados em aprendizagem por reforço (RL) aprimorem as capacidades de raciocínio, eles frequentemente dependem de cadeias textuais que produzem conclusões infundadas ou alucinadas. Por outro lado, as abordagens de recuperação de frames introduzem fundamentação visual, mas ainda lutam com a localização imprecisa de evidências. Para enfrentar esses desafios, apresentamos Conan, uma estrutura para raciocínio em vídeo multietapas fundamentado em evidências. O Conan identifica frames contextuais e de evidência, raciocina sobre pistas entre frames e decide adaptativamente quando concluir ou explorar mais. Para alcançar isso, nós (1) construímos Conan-91K, um conjunto de dados em larga escala de traços de raciocínio gerados automaticamente que inclui identificação de frames, raciocínio sobre evidências e decisão de ação, e (2) projetamos uma estratégia progressiva de arranque a frio multietapas combinada com uma estrutura de treinamento RLVR de Identificação-Raciocínio-Ação (AIR) para aprimorar conjuntamente o raciocínio visual multietapas. Experimentos extensos em seis benchmarks de raciocínio multietapas demonstram que o Conan supera a linha de base Qwen2.5-VL-7B-Instruct em uma média de mais de 10% em precisão, alcançando desempenho de ponta. Além disso, o Conan generaliza efetivamente para tarefas de compreensão de vídeos longos, validando sua forte escalabilidade e robustez.
English
Video reasoning, which requires multi-step deduction across frames, remains a major challenge for multimodal large language models (MLLMs). While reinforcement learning (RL)-based methods enhance reasoning capabilities, they often rely on text-only chains that yield ungrounded or hallucinated conclusions. Conversely, frame-retrieval approaches introduce visual grounding but still struggle with inaccurate evidence localization. To address these challenges, we present Conan, a framework for evidence-grounded multi-step video reasoning. Conan identifies contextual and evidence frames, reasons over cross-frame clues, and adaptively decides when to conclude or explore further. To achieve this, we (1) construct Conan-91K, a large-scale dataset of automatically generated reasoning traces that includes frame identification, evidence reasoning, and action decision, and (2) design a multi-stage progressive cold-start strategy combined with an Identification-Reasoning-Action (AIR) RLVR training framework to jointly enhance multi-step visual reasoning. Extensive experiments on six multi-step reasoning benchmarks demonstrate that Conan surpasses the baseline Qwen2.5-VL-7B-Instruct by an average of over 10% in accuracy, achieving state-of-the-art performance. Furthermore, Conan generalizes effectively to long-video understanding tasks, validating its strong scalability and robustness.
PDF112December 2, 2025