ChatPaper.aiChatPaper

Reduciendo la Escala de la Inteligencia: Explorando los Cuellos de Botella en Percepción y Razonamiento de los Modelos Multimodales Pequeños

Downscaling Intelligence: Exploring Perception and Reasoning Bottlenecks in Small Multimodal Models

November 21, 2025
Autores: Mark Endo, Serena Yeung-Levy
cs.AI

Resumen

La ampliación de modelos multimodales ha permitido avances notables en comprensión y razonamiento visual, pero las demandas prácticas exigen sistemas más pequeños y eficientes. En este trabajo, realizamos un análisis sistemático de la reducción de inteligencia en modelos multimodales, examinando cómo la capacidad reducida de los modelos de lenguaje grandes (LLM) afecta las capacidades multimodales. Nuestros hallazgos iniciales revelan una tendencia interesante: la reducción de los LLM afecta desproporcionadamente a las capacidades visuales, en lugar de a las habilidades heredadas del LLM. Posteriormente, examinamos si esta disminución refleja principalmente el declive esperado en el razonamiento visual o una pérdida más fundamental de las habilidades perceptivas. Al aislar el efecto de la reducción del LLM en la percepción, encontramos que el rendimiento aún cae abruptamente, a menudo igualando o superando el impacto en el razonamiento. Para abordar este cuello de botella, introducimos el ajuste de extracción visual, que entrena explícitamente al modelo para extraer detalles visuales relevantes para la instrucción de manera consistente entre tareas. Con estos detalles visuales extraídos, aplicamos un razonamiento paso a paso para generar respuestas. En conjunto, estos componentes forman nuestro enfoque Extraer+Pensar, estableciendo un nuevo estándar de eficiencia y rendimiento en este ámbito.
English
Scaling up multimodal models has enabled remarkable advances in visual understanding and reasoning, but practical demands call for smaller, efficient systems. In this work, we conduct a principled analysis of downscaling intelligence in multimodal models, examining how reduced large language model (LLM) capacity affects multimodal capabilities. Our initial findings reveal an interesting trend: LLM downscaling disproportionately affects visual capabilities, rather than abilities inherited from the LLM. We then examine whether this drop mainly reflects the expected decline in visual reasoning or a more fundamental loss of perceptual abilities. Isolating the effect of LLM downscaling on perception, we find performance still drops sharply, often matching or exceeding the impact on reasoning. To address this bottleneck, we introduce visual extraction tuning, which explicitly trains the model to extract instruction-relevant visual details consistently across tasks. With these extracted visual details, we then apply step-by-step reasoning to generate answers. Together, these components form our Extract+Think approach, setting a new standard for efficiency and performance in this space.
PDF92December 1, 2025