Kunnen tekstuele redeneringen de prestaties van MLLM's bij fijnmazige visuele classificatie verbeteren?
Can Textual Reasoning Improve the Performance of MLLMs on Fine-grained Visual Classification?
January 11, 2026
Auteurs: Jie Zhu, Yiyang Su, Xiaoming Liu
cs.AI
Samenvatting
Multimodale grote taalmodellen (MLLM's) vertonen sterke algemene mogelijkheden, maar presteren nog steeds ondermaats bij fijnmazige visuele classificatie (FGVC), een kernperceptietaak die subtiele visuele discriminatie vereist en cruciaal is voor veel real-world toepassingen. Een veelgebruikte strategie om prestaties op uitdagende taken zoals wiskunde en coderen te verbeteren, is Chain-of-Thought (CoT) redenering. Eerdere studies hebben echter gerapporteerd dat CoT de prestaties op visuele perceptietaken juist kan schaden. Deze onderzoeken bekeken het probleem echter vanuit relatief smalle invalshoeken en lieten de vraag waarom CoT perceptie-zware prestaties verslechtert onbeantwoord. Wij onderzoeken de rol van CoT in FGVC systematisch opnieuw, door de lens van zero-shot evaluatie en meerdere trainingsparadigma's. In deze settings leggen we een centrale paradox bloot: de prestatievermindering veroorzaakt door CoT wordt grotendeels gedreven door de redeneerlengte, waarbij langere tekstuele redenering consistent tot lagere classificatienauwkeurigheid leidt. Wij duiden dit fenomeen aan als de "Kost van Denken". Voortbouwend op deze bevinding doen we twee belangrijke bijdragen: (1) \alg, een eenvoudige en algemene plug-and-play normalisatiemethode voor multi-reward optimalisatie die heterogene beloningssignalen in evenwicht brengt, en (2) ReFine-RFT, een raamwerk dat ensemble-beloningen combineert met \alg om de redeneerlengte te beperken en tegelijkertijd dichte, op nauwkeurigheid gerichte feedback te geven. Uitgebreide experimenten demonstreren de effectiviteit van onze bevindingen en het voorgestelde ReFine-RFT, waarbij state-of-the-art prestaties worden behaald op FGVC benchmarks. Code en modellen zijn beschikbaar op https://github.com/jiezhu23/ReFine-RFT{Project Link}.
English
Multi-modal large language models (MLLMs) exhibit strong general-purpose capabilities, yet still struggle on Fine-Grained Visual Classification (FGVC), a core perception task that requires subtle visual discrimination and is crucial for many real-world applications. A widely adopted strategy for boosting performance on challenging tasks such as math and coding is Chain-of-Thought (CoT) reasoning. However, several prior works have reported that CoT can actually harm performance on visual perception tasks. These studies, though, examine the issue from relatively narrow angles and leave open why CoT degrades perception-heavy performance. We systematically re-examine the role of CoT in FGVC through the lenses of zero-shot evaluation and multiple training paradigms. Across these settings, we uncover a central paradox: the degradation induced by CoT is largely driven by the reasoning length, in which longer textual reasoning consistently lowers classification accuracy. We term this phenomenon the ``Cost of Thinking''. Building on this finding, we make two key contributions: (1) \alg, a simple and general plug-and-play normalization method for multi-reward optimization that balances heterogeneous reward signals, and (2) ReFine-RFT, a framework that combines ensemble rewards with \alg to constrain reasoning length while providing dense accuracy-oriented feedback. Extensive experiments demonstrate the effectiveness of our findings and the proposed ReFine-RFT, achieving state-of-the-art performance across FGVC benchmarks. Code and models are available at https://github.com/jiezhu23/ReFine-RFT{Project Link}.