Aprendizagem de Caminhos de Raciocínio Adaptativos para Raciocínio Visual Eficiente

Resumo

Os modelos de raciocínio visual (VRMs) demonstraram recentemente fortes capacidades de raciocínio multimodal ao integrar a percepção visual com o raciocínio linguístico. No entanto, eles frequentemente sofrem de "overthinking", produzindo cadeias de raciocínio desnecessariamente longas para qualquer tarefa. Atribuímos este problema à Redundância do Percurso de Raciocínio no raciocínio visual: muitas questões visuais não requerem o processo completo de raciocínio. Para resolver isso, propomos o AVR, uma estrutura de raciocínio visual adaptativa que decompõe o raciocínio visual em três funções cognitivas: percepção visual, raciocínio lógico e aplicação da resposta. Ela permite ainda que os modelos escolham dinamicamente entre três formatos de resposta: Formato Completo, Formato Apenas de Percepção e Resposta Direta. O AVR é treinado com o FS-GRPO, uma adaptação do Group Relative Policy Optimization que incentiva o modelo a selecionar o formato de raciocínio mais eficiente, preservando a correção. Experimentos em várias bases de referência visão-linguagem mostram que o AVR reduz o uso de tokens em 50–90\%, mantendo a precisão geral, especialmente em tarefas intensivas em percepção. Estes resultados demonstram que o raciocínio visual adaptativo pode mitigar efetivamente o "overthinking" em VRMs. O código e os dados estão disponíveis em: https://github.com/RunRiotComeOn/AVR.

English

Visual reasoning models (VRMs) have recently shown strong cross-modal reasoning capabilities by integrating visual perception with language reasoning. However, they often suffer from overthinking, producing unnecessarily long reasoning chains for any tasks. We attribute this issue to Reasoning Path Redundancy in visual reasoning: many visual questions do not require the full reasoning process. To address this, we propose AVR, an adaptive visual reasoning framework that decomposes visual reasoning into three cognitive functions: visual perception, logical reasoning, and answer application. It further enables models to dynamically choose among three response formats: Full Format, Perception-Only Format, and Direct Answer. AVR is trained with FS-GRPO, an adaptation of Group Relative Policy Optimization that encourages the model to select the most efficient reasoning format while preserving correctness. Experiments on multiple vision-language benchmarks show that AVR reduces token usage by 50--90\% while maintaining overall accuracy, especially in perception-intensive tasks. These results demonstrate that adaptive visual reasoning can effectively mitigate overthinking in VRMs. Code and data are available at: https://github.com/RunRiotComeOn/AVR.

Aprendizagem de Caminhos de Raciocínio Adaptativos para Raciocínio Visual Eficiente

Learning Adaptive Reasoning Paths for Efficient Visual Reasoning

Resumo

Support