소형 멀티모달 모델의 인지 및 추론 병목 현상 탐구: 지능 축소 관점에서
Downscaling Intelligence: Exploring Perception and Reasoning Bottlenecks in Small Multimodal Models
November 21, 2025
저자: Mark Endo, Serena Yeung-Levy
cs.AI
초록
멀티모달 모델의 규모 확대는 시각 이해 및 추론 분야에서 놀라운 발전을 가능하게 했지만, 실제 응용에서는 보다 소규모이면서 효율적인 시스템에 대한 요구가 증가하고 있습니다. 본 연구에서는 멀티모달 모델의 지능 규모 축소에 대한 체계적인 분석을 수행하며, 대규모 언어 모델(LLM)의 용량 감소가 멀티모달 능력에 미치는 영향을 검토합니다. 초기 연구 결과에 따르면, LLM 규모 축소는 LLM으로부터 상속된 능력보다 시각적 능력에 불균형적으로 큰 영향을 미치는 흥미로운 경향이 나타납니다. 우리는 이러한 성능 하락이 주로 예상되는 시각 추론 능력의 감소를 반영하는지, 아니면 더 근본적인 지각 능력의 상실을 나타내는지 추가적으로 검증합니다. LLM 규모 축소가 순수 지각 능력에 미치는 영향을 분리하여 분석한 결과, 성능이 여전히 급격히 하락하며 이는 추론 능력에 미치는 영향에 버금가거나 이를 넘어서는 경우가 많았습니다. 이러한 병목 현상을 해결하기 위해 우리는 시각 정보 추출 미세 조정(visual extraction tuning) 기법을 도입합니다. 이 방법은 모델이 다양한 작업에 걸쳐 지시 사항과 관련된 시각적 세부 정보를 일관성 있게 추출하도록 명시적으로 학습시킵니다. 추출된 시각적 세부 정보를 바탕으로 단계별 추론(step-by-step reasoning)을 적용하여 답변을 생성합니다. 이러한 구성 요소들이 결합된 우리의 Extract+Think 접근법은 해당 분야의 효율성과 성능 측면에서 새로운 기준을 제시합니다.
English
Scaling up multimodal models has enabled remarkable advances in visual understanding and reasoning, but practical demands call for smaller, efficient systems. In this work, we conduct a principled analysis of downscaling intelligence in multimodal models, examining how reduced large language model (LLM) capacity affects multimodal capabilities. Our initial findings reveal an interesting trend: LLM downscaling disproportionately affects visual capabilities, rather than abilities inherited from the LLM. We then examine whether this drop mainly reflects the expected decline in visual reasoning or a more fundamental loss of perceptual abilities. Isolating the effect of LLM downscaling on perception, we find performance still drops sharply, often matching or exceeding the impact on reasoning. To address this bottleneck, we introduce visual extraction tuning, which explicitly trains the model to extract instruction-relevant visual details consistently across tasks. With these extracted visual details, we then apply step-by-step reasoning to generate answers. Together, these components form our Extract+Think approach, setting a new standard for efficiency and performance in this space.