텍스트 추론이 MLLM의 세분화된 시각 분류 성능 향상에 기여할 수 있을까?
Can Textual Reasoning Improve the Performance of MLLMs on Fine-grained Visual Classification?
January 11, 2026
저자: Jie Zhu, Yiyang Su, Xiaoming Liu
cs.AI
초록
다중 모달 대규모 언어 모델(MLLMs)은 강력한 범용 능력을 보여주지만, 미세한 시각적 식별력을 요구하며 많은 실제 애플리케이션에서 중요한 핵심 인지 과업인 세분화 시각 분류(FGVC)에서는 여전히 어려움을 겪고 있습니다. 수학이나 코딩과 같은 도전적인 과제의 성능을 향상시키기 위해 널리 채택된 전략은 사고의 연쇄(CoT) 추론입니다. 그러나 여러 선행 연구들은 CoT가 실제로 시각 인지 과업의 성능을 해칠 수 있다고 보고했습니다. 이러한 연구들은 비교적 제한된 시각에서 문제를 검토했으며, CoT가 인지 중심 성능을 저하시키는 이유에 대해서는 열려둔 채로 남아 있습니다. 우리는 제로샷 평가와 다양한 훈련 패러다임이라는 렌즈를 통해 FGVC에서 CoT의 역할을 체계적으로 재검토합니다. 이러한 설정 전반에 걸쳐 우리는 핵심적인 역설을 발견했습니다: CoT에 의해 유발되는 성능 저하는 주로 추론 길이에 의해 결정되며, 더 긴 텍스트 추론은 일관되게 분류 정확도를 낮춥니다. 우리는 이 현상을 "사고의 비용(Cost of Thinking)"이라고 명명합니다. 이 발견을 바탕으로 우리는 두 가지 핵심 기여를 합니다: (1) 이질적인 보상 신호를 균형 있게 조정하는 다중 보상 최적화를 위한 간단하고 범용적인 플러그 앤 플레이 정규화 방법인 \alg, 그리고 (2) 앙상블 보상과 \alg를 결합하여 정확도 중심의 조밀한 피드백을 제공하면서 추론 길이를 제약하는 프레임워크인 ReFine-RFT입니다. 광범위한 실험을 통해 우리의 발견과 제안된 ReFine-RFT의 효과성을 입증하며, FGVC 벤치마크 전반에서 최첨단 성능을 달성했습니다. 코드와 모델은 https://github.com/jiezhu23/ReFine-RFT{프로젝트 링크}에서 확인할 수 있습니다.
English
Multi-modal large language models (MLLMs) exhibit strong general-purpose capabilities, yet still struggle on Fine-Grained Visual Classification (FGVC), a core perception task that requires subtle visual discrimination and is crucial for many real-world applications. A widely adopted strategy for boosting performance on challenging tasks such as math and coding is Chain-of-Thought (CoT) reasoning. However, several prior works have reported that CoT can actually harm performance on visual perception tasks. These studies, though, examine the issue from relatively narrow angles and leave open why CoT degrades perception-heavy performance. We systematically re-examine the role of CoT in FGVC through the lenses of zero-shot evaluation and multiple training paradigms. Across these settings, we uncover a central paradox: the degradation induced by CoT is largely driven by the reasoning length, in which longer textual reasoning consistently lowers classification accuracy. We term this phenomenon the ``Cost of Thinking''. Building on this finding, we make two key contributions: (1) \alg, a simple and general plug-and-play normalization method for multi-reward optimization that balances heterogeneous reward signals, and (2) ReFine-RFT, a framework that combines ensemble rewards with \alg to constrain reasoning length while providing dense accuracy-oriented feedback. Extensive experiments demonstrate the effectiveness of our findings and the proposed ReFine-RFT, achieving state-of-the-art performance across FGVC benchmarks. Code and models are available at https://github.com/jiezhu23/ReFine-RFT{Project Link}.