ChatPaper.aiChatPaper

テキスト推論はMLLMの細粒度視覚分類における性能を向上させることができるか?

Can Textual Reasoning Improve the Performance of MLLMs on Fine-grained Visual Classification?

January 11, 2026
著者: Jie Zhu, Yiyang Su, Xiaoming Liu
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLM)は強力な汎用能力を示す一方で、微細な視覚的識別を必要とする中核的な知覚タスクであり、多くの実世界アプリケーションにおいて重要なFGVC(Fine-Grained Visual Classification)においては依然として課題を抱えている。数学やコーディングなどの困難なタスクの性能向上のために広く採用されている戦略の一つが、Chain-of-Thought(CoT)推論である。しかし、これまでの複数の研究は、CoTが視覚知覚タスクの性能を実際に損なう可能性があると報告している。これらの研究は比較的限定的な視点から問題を検討しており、なぜCoTが知覚重視の性能を低下させるのかは未解明のままであった。我々は、ゼロショット評価と複数の学習パラダイムを通じて、FGVCにおけるCoTの役割を体系的に再検証する。これらの設定において、我々は中心的なパラドックスを発見した:CoTによって引き起こされる性能低下は、主に推論の長さによって駆動されており、より長いテキスト推論が一貫して分類精度を低下させる。我々はこの現象を「思考のコスト」と名付ける。この発見に基づき、我々は二つの主要な貢献を行う:(1) 異種報酬信号のバランスを取る、シンプルで汎用的なプラグアンドプレイ型の正規化手法である\alg(マルチ報酬最適化のための手法)、および(2) アンサンブル報酬と\algを組み合わせ、精度指向の密なフィードバックを提供しつつ推論長を制約するフレームワークであるReFine-RFT。大規模な実験により、我々の発見と提案するReFine-RFTの有効性が実証され、FGVCベンチマークにおいて state-of-the-art の性能を達成した。コードとモデルは https://github.com/jiezhu23/ReFine-RFT で公開されている。
English
Multi-modal large language models (MLLMs) exhibit strong general-purpose capabilities, yet still struggle on Fine-Grained Visual Classification (FGVC), a core perception task that requires subtle visual discrimination and is crucial for many real-world applications. A widely adopted strategy for boosting performance on challenging tasks such as math and coding is Chain-of-Thought (CoT) reasoning. However, several prior works have reported that CoT can actually harm performance on visual perception tasks. These studies, though, examine the issue from relatively narrow angles and leave open why CoT degrades perception-heavy performance. We systematically re-examine the role of CoT in FGVC through the lenses of zero-shot evaluation and multiple training paradigms. Across these settings, we uncover a central paradox: the degradation induced by CoT is largely driven by the reasoning length, in which longer textual reasoning consistently lowers classification accuracy. We term this phenomenon the ``Cost of Thinking''. Building on this finding, we make two key contributions: (1) \alg, a simple and general plug-and-play normalization method for multi-reward optimization that balances heterogeneous reward signals, and (2) ReFine-RFT, a framework that combines ensemble rewards with \alg to constrain reasoning length while providing dense accuracy-oriented feedback. Extensive experiments demonstrate the effectiveness of our findings and the proposed ReFine-RFT, achieving state-of-the-art performance across FGVC benchmarks. Code and models are available at https://github.com/jiezhu23/ReFine-RFT{Project Link}.
PDF22January 31, 2026