小型マルチモーダルモデルにおける知覚と推論のボトルネックの探求:知能の縮小化
Downscaling Intelligence: Exploring Perception and Reasoning Bottlenecks in Small Multimodal Models
November 21, 2025
著者: Mark Endo, Serena Yeung-Levy
cs.AI
要旨
大規模マルチモーダルモデルの発展は視覚的理解と推論において顕著な進歩をもたらしたが、実用上の要求はより小型で効率的なシステムを求めている。本研究では、マルチモーダルモデルにおける知能のダウンスケーリングを体系的な分析により検証し、大規模言語モデル(LLM)の容量削減がマルチモーダル能力に与える影響を考察する。初期の知見として、LLMのダウンスケーリングがLLMから継承された能力よりも視覚能力に不均衡に影響を与えるという興味深い傾向を明らかにする。次に、この性能低下が視覚推論の予測可能な衰退によるものか、あるいは知覚能力の根本的な喪失を示すものかを検証する。知覚に対するLLMダウンスケーリングの影響を分離分析した結果、性能が依然として急激に低下し、多くの場合で推論への影響と同等またはそれを上回ることが判明した。このボトルネックに対処するため、タスク横断的に指示に関連する視覚的詳細を一貫して抽出するようモデルを明示的に訓練する「視覚抽出チューニング」を提案する。抽出された視覚的詳細を用いて、段階的推論により回答を生成する。これらを統合した「Extract+Think」アプローチは、この領域における効率性と性能の新たな基準を確立するものである。
English
Scaling up multimodal models has enabled remarkable advances in visual understanding and reasoning, but practical demands call for smaller, efficient systems. In this work, we conduct a principled analysis of downscaling intelligence in multimodal models, examining how reduced large language model (LLM) capacity affects multimodal capabilities. Our initial findings reveal an interesting trend: LLM downscaling disproportionately affects visual capabilities, rather than abilities inherited from the LLM. We then examine whether this drop mainly reflects the expected decline in visual reasoning or a more fundamental loss of perceptual abilities. Isolating the effect of LLM downscaling on perception, we find performance still drops sharply, often matching or exceeding the impact on reasoning. To address this bottleneck, we introduce visual extraction tuning, which explicitly trains the model to extract instruction-relevant visual details consistently across tasks. With these extracted visual details, we then apply step-by-step reasoning to generate answers. Together, these components form our Extract+Think approach, setting a new standard for efficiency and performance in this space.