Het verkleinen van intelligentie: Onderzoek naar perceptie- en redeneerknelpunten in kleine multimodale modellen
Downscaling Intelligence: Exploring Perception and Reasoning Bottlenecks in Small Multimodal Models
November 21, 2025
Auteurs: Mark Endo, Serena Yeung-Levy
cs.AI
Samenvatting
Het opschalen van multimodale modellen heeft opmerkelijke vooruitgang mogelijk gemaakt in visueel begrip en redeneren, maar praktische eisen vragen om kleinere, efficiëntere systemen. In dit werk voeren we een principiële analyse uit van het verkleinen van intelligentie in multimodale modellen, waarbij we onderzoeken hoe verminderde capaciteit van grote taalmodellen (LLM's) multimodale capaciteiten beïnvloedt. Onze eerste bevindingen onthullen een interessante trend: het verkleinen van de LLM beïnvloedt onevenredig sterk de visuele capaciteiten, in plaats van de vaardigheden die zijn overgenomen van de LLM. Vervolgens onderzoeken we of deze daling voornamelijk de verwachte achteruitgang in visueel redeneren weerspiegelt, of een fundamenteler verlies van waarnemingsvermogen. Door het effect van LLM-verkleining op perceptie te isoleren, constateren we dat de prestaties nog steeds sterk dalen, vaak gelijk aan of groter dan de impact op redeneren. Om dit knelpunt aan te pakken, introduceren we *visual extraction tuning*, waarbij het model expliciet wordt getraind om instructie-relevante visuele details consistent over taken heen te extraheren. Met deze geëxtraheerde visuele details passen we vervolgens stap-voor-stap redeneren toe om antwoorden te genereren. Samen vormen deze componenten onze Extract+Think-aanpak, die een nieuwe standaard zet voor efficiëntie en prestaties in dit domein.
English
Scaling up multimodal models has enabled remarkable advances in visual understanding and reasoning, but practical demands call for smaller, efficient systems. In this work, we conduct a principled analysis of downscaling intelligence in multimodal models, examining how reduced large language model (LLM) capacity affects multimodal capabilities. Our initial findings reveal an interesting trend: LLM downscaling disproportionately affects visual capabilities, rather than abilities inherited from the LLM. We then examine whether this drop mainly reflects the expected decline in visual reasoning or a more fundamental loss of perceptual abilities. Isolating the effect of LLM downscaling on perception, we find performance still drops sharply, often matching or exceeding the impact on reasoning. To address this bottleneck, we introduce visual extraction tuning, which explicitly trains the model to extract instruction-relevant visual details consistently across tasks. With these extracted visual details, we then apply step-by-step reasoning to generate answers. Together, these components form our Extract+Think approach, setting a new standard for efficiency and performance in this space.