Apprendimento di Percorsi di Ragionamento Adattivi per un Ragionamento Visivo Efficiente

Abstract

I modelli di ragionamento visivo (VRM) hanno recentemente dimostrato forti capacità di ragionamento cross-modale integrando la percezione visiva con il ragionamento linguistico. Tuttavia, spesso soffrono di "overthinking", producendo catene di ragionamento inutilmente lunghe per qualsiasi compito. Attribuiamo questo problema alla Ridondanza del Percorso di Ragionamento nel ragionamento visivo: molte domande visive non richiedono l'intero processo deduttivo. Per risolvere ciò, proponiamo AVR, un framework di ragionamento visivo adattativo che scompone il ragionamento visivo in tre funzioni cognitive: percezione visiva, ragionamento logico e applicazione della risposta. Inoltre, consente ai modelli di scegliere dinamicamente tra tre formati di risposta: Formato Completo, Formato Solo Percezione e Risposta Diretta. AVR viene addestrato con FS-GRPO, un adattamento dell'ottimizzazione delle politiche relative di gruppo che incentiva il modello a selezionare il formato di ragionamento più efficiente preservando la correttezza. Esperimenti su diversi benchmark visione-linguaggio mostrano che AVR riduce l'utilizzo di token del 50-90% mantenendo l'accuratezza complessiva, specialmente in compiti percettivo-intensivi. Questi risultati dimostrano che il ragionamento visivo adattativo può mitigare efficacemente l'overthinking nei VRM. Codice e dati sono disponibili su: https://github.com/RunRiotComeOn/AVR.

English

Visual reasoning models (VRMs) have recently shown strong cross-modal reasoning capabilities by integrating visual perception with language reasoning. However, they often suffer from overthinking, producing unnecessarily long reasoning chains for any tasks. We attribute this issue to Reasoning Path Redundancy in visual reasoning: many visual questions do not require the full reasoning process. To address this, we propose AVR, an adaptive visual reasoning framework that decomposes visual reasoning into three cognitive functions: visual perception, logical reasoning, and answer application. It further enables models to dynamically choose among three response formats: Full Format, Perception-Only Format, and Direct Answer. AVR is trained with FS-GRPO, an adaptation of Group Relative Policy Optimization that encourages the model to select the most efficient reasoning format while preserving correctness. Experiments on multiple vision-language benchmarks show that AVR reduces token usage by 50--90\% while maintaining overall accuracy, especially in perception-intensive tasks. These results demonstrate that adaptive visual reasoning can effectively mitigate overthinking in VRMs. Code and data are available at: https://github.com/RunRiotComeOn/AVR.

Apprendimento di Percorsi di Ragionamento Adattivi per un Ragionamento Visivo Efficiente

Learning Adaptive Reasoning Paths for Efficient Visual Reasoning

Abstract

Support