Verkleinerung von Intelligenz: Untersuchung von Wahrnehmungs- und Denkbeschränkungen in kleinen multimodalen Modellen
Downscaling Intelligence: Exploring Perception and Reasoning Bottlenecks in Small Multimodal Models
November 21, 2025
papers.authors: Mark Endo, Serena Yeung-Levy
cs.AI
papers.abstract
Die Skalierung multimodaler Modelle hat bemerkenswerte Fortschritte im visuellen Verständnis und Schlussfolgern ermöglicht, doch praktische Anforderungen erfordern kleinere, effiziente Systeme. In dieser Arbeit führen wir eine prinzipiengeleitete Analyse der Herunterskalierung von Intelligenz in multimodalen Modellen durch und untersuchen, wie sich eine reduzierte Kapazität großer Sprachmodelle (LLM) auf multimodale Fähigkeiten auswirkt. Unsere ersten Erkenntnisse zeigen einen interessanten Trend: Das Herunterskalieren der LLM beeinträchtigt visuelle Fähigkeiten unverhältnismäßig stärker als die vom LLM geerbten Fähigkeiten. Wir untersuchen dann, ob dieser Leistungseinbruch hauptsächlich den erwarteten Rückgang im visuellen Reasoning widerspiegelt oder einen grundlegenderen Verlust von Wahrnehmungsfähigkeiten darstellt. Bei Isolierung des Effekts der LLM-Skalierung auf die Wahrnehmung stellen wir fest, dass die Leistung dennoch stark abfällt, oftmals vergleichbar mit oder stärker als die Auswirkungen auf das Reasoning. Um diesen Engpass zu adressieren, führen wir visuelles Extraktionstuning ein, das das Modell explizit darauf trainiert, instruktionsrelevante visuelle Details konsistent über verschiedene Aufgaben hinweg zu extrahieren. Mit diesen extrahierten visuellen Details wenden wir dann schrittweises Reasoning an, um Antworten zu generieren. Zusammen bilden diese Komponenten unseren "Extract+Think"-Ansatz, der einen neuen Standard für Effizienz und Leistung in diesem Bereich setzt.
English
Scaling up multimodal models has enabled remarkable advances in visual understanding and reasoning, but practical demands call for smaller, efficient systems. In this work, we conduct a principled analysis of downscaling intelligence in multimodal models, examining how reduced large language model (LLM) capacity affects multimodal capabilities. Our initial findings reveal an interesting trend: LLM downscaling disproportionately affects visual capabilities, rather than abilities inherited from the LLM. We then examine whether this drop mainly reflects the expected decline in visual reasoning or a more fundamental loss of perceptual abilities. Isolating the effect of LLM downscaling on perception, we find performance still drops sharply, often matching or exceeding the impact on reasoning. To address this bottleneck, we introduce visual extraction tuning, which explicitly trains the model to extract instruction-relevant visual details consistently across tasks. With these extracted visual details, we then apply step-by-step reasoning to generate answers. Together, these components form our Extract+Think approach, setting a new standard for efficiency and performance in this space.