ChatPaper.aiChatPaper

Le raisonnement textuel peut-il améliorer les performances des MLLM sur la classification visuelle fine ?

Can Textual Reasoning Improve the Performance of MLLMs on Fine-grained Visual Classification?

January 11, 2026
papers.authors: Jie Zhu, Yiyang Su, Xiaoming Liu
cs.AI

papers.abstract

Les modèles de traitement linguistique multimodaux (MLLM) présentent des capacités polyvalentes remarquables, mais peinent encore sur la classification visuelle fine (FGVC), une tâche de perception fondamentale qui nécessite une discrimination visuelle subtile et qui est cruciale pour de nombreuses applications réelles. Une stratégie largement adoptée pour améliorer les performances sur des tâches complexes comme les mathématiques et la programmation est le raisonnement en chaîne de pensée (CoT). Cependant, plusieurs travaux antérieurs ont rapporté que le CoT peut en réalité nuire aux performances sur les tâches de perception visuelle. Ces études, toutefois, examinent la question sous des angles relativement restreints et laissent ouverte la question de savoir pourquoi le CoT dégrade les performances fortement liées à la perception. Nous réexaminons systématiquement le rôle du CoT dans la FGVC sous l'angle de l'évaluation zero-shot et de multiples paradigmes d'apprentissage. À travers ces configurations, nous mettons au jour un paradoxe central : la dégradation induite par le CoT est largement pilotée par la longueur du raisonnement, où un raisonnement textuel plus long réduit systématiquement la précision de la classification. Nous nommons ce phénomène le « Coût de la Réflexion ». En nous appuyant sur cette découverte, nous apportons deux contributions clés : (1) \alg, une méthode de normalisation simple et générale, prête à l'emploi, pour l'optimisation multi-récompenses qui équilibre les signaux de récompense hétérogènes, et (2) ReFine-RFT, un cadre qui combine des récompenses d'ensemble avec \alg pour contraindre la longueur du raisonnement tout en fournissant un retour d'information dense axé sur la précision. Des expérimentations approfondies démontrent l'efficacité de nos résultats et du ReFine-RFT proposé, atteignant des performances de pointe sur les benchmarks de FGVC. Le code et les modèles sont disponibles à l'adresse https://github.com/jiezhu23/ReFine-RFT{Lien du projet}.
English
Multi-modal large language models (MLLMs) exhibit strong general-purpose capabilities, yet still struggle on Fine-Grained Visual Classification (FGVC), a core perception task that requires subtle visual discrimination and is crucial for many real-world applications. A widely adopted strategy for boosting performance on challenging tasks such as math and coding is Chain-of-Thought (CoT) reasoning. However, several prior works have reported that CoT can actually harm performance on visual perception tasks. These studies, though, examine the issue from relatively narrow angles and leave open why CoT degrades perception-heavy performance. We systematically re-examine the role of CoT in FGVC through the lenses of zero-shot evaluation and multiple training paradigms. Across these settings, we uncover a central paradox: the degradation induced by CoT is largely driven by the reasoning length, in which longer textual reasoning consistently lowers classification accuracy. We term this phenomenon the ``Cost of Thinking''. Building on this finding, we make two key contributions: (1) \alg, a simple and general plug-and-play normalization method for multi-reward optimization that balances heterogeneous reward signals, and (2) ReFine-RFT, a framework that combines ensemble rewards with \alg to constrain reasoning length while providing dense accuracy-oriented feedback. Extensive experiments demonstrate the effectiveness of our findings and the proposed ReFine-RFT, achieving state-of-the-art performance across FGVC benchmarks. Code and models are available at https://github.com/jiezhu23/ReFine-RFT{Project Link}.
PDF22January 31, 2026