Il ragionamento testuale può migliorare le prestazioni dei MLLM nella classificazione visiva granulare?

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLM) mostrano forti capacità generali, ma continuano a incontrare difficoltà nella Classificazione Visiva di Grana Fine (FGVC), un compito percettivo fondamentale che richiede una sottile discriminazione visiva ed è cruciale per molte applicazioni del mondo reale. Una strategia ampiamente adottata per migliorare le prestazioni su compiti impegnativi come la matematica e la codifica è il ragionamento a Catena del Pensiero (CoT). Tuttavia, diversi lavori precedenti hanno segnalato che il CoT può effettivamente danneggiare le prestazioni nei compiti di percezione visiva. Questi studi, tuttavia, esaminano il problema da angolature relativamente ristrette e lasciano aperta la questione del perché il CoT degradi le prestazioni ad alta intensità percettiva. Noi riesaminiamo sistematicamente il ruolo del CoT nella FGVC attraverso le lenti della valutazione zero-shot e di molteplici paradigmi di addestramento. In tutti questi contesti, scopriamo un paradosso centrale: il degrado indotto dal CoT è largamente guidato dalla lunghezza del ragionamento, in cui un ragionamento testuale più lungo abbassa costantemente l'accuratezza della classificazione. Definiamo questo fenomeno il "Costo del Pensiero". Sulla base di questa scoperta, forniamo due contributi chiave: (1) \alg, un semplice e generale metodo di normalizzazione plug-and-play per l'ottimizzazione multi-ricompensa che bilancia segnali di ricompensa eterogenei, e (2) ReFine-RFT, un quadro che combina ricompense di ensemble con \alg per vincolare la lunghezza del ragionamento fornendo al contempo un feedback denso orientato all'accuratezza. Esperimenti estensivi dimostrano l'efficacia delle nostre scoperte e del ReFine-RFT proposto, raggiungendo prestazioni all'avanguardia su vari benchmark FGVC. Il codice e i modelli sono disponibili all'indirizzo https://github.com/jiezhu23/ReFine-RFT{Collegamento al Progetto}.

English

Multi-modal large language models (MLLMs) exhibit strong general-purpose capabilities, yet still struggle on Fine-Grained Visual Classification (FGVC), a core perception task that requires subtle visual discrimination and is crucial for many real-world applications. A widely adopted strategy for boosting performance on challenging tasks such as math and coding is Chain-of-Thought (CoT) reasoning. However, several prior works have reported that CoT can actually harm performance on visual perception tasks. These studies, though, examine the issue from relatively narrow angles and leave open why CoT degrades perception-heavy performance. We systematically re-examine the role of CoT in FGVC through the lenses of zero-shot evaluation and multiple training paradigms. Across these settings, we uncover a central paradox: the degradation induced by CoT is largely driven by the reasoning length, in which longer textual reasoning consistently lowers classification accuracy. We term this phenomenon the ``Cost of Thinking''. Building on this finding, we make two key contributions: (1) \alg, a simple and general plug-and-play normalization method for multi-reward optimization that balances heterogeneous reward signals, and (2) ReFine-RFT, a framework that combines ensemble rewards with \alg to constrain reasoning length while providing dense accuracy-oriented feedback. Extensive experiments demonstrate the effectiveness of our findings and the proposed ReFine-RFT, achieving state-of-the-art performance across FGVC benchmarks. Code and models are available at https://github.com/jiezhu23/ReFine-RFT{Project Link}.

Il ragionamento testuale può migliorare le prestazioni dei MLLM nella classificazione visiva granulare?

Can Textual Reasoning Improve the Performance of MLLMs on Fine-grained Visual Classification?

Abstract

Support