Ridimensionamento dell'Intelligenza: Esplorazione dei Colli di Bottiglia Percettivi e Razionali nei Piccoli Modelli Multimodali
Downscaling Intelligence: Exploring Perception and Reasoning Bottlenecks in Small Multimodal Models
November 21, 2025
Autori: Mark Endo, Serena Yeung-Levy
cs.AI
Abstract
Il potenziamento dei modelli multimodali ha consentito progressi notevoli nella comprensione e nel ragionamento visivo, ma le esigenze pratiche richiedono sistemi più piccoli ed efficienti. In questo lavoro, conduciamo un'analisi sistematica del ridimensionamento dell'intelligenza nei modelli multimodali, esaminando come la ridotta capacità dei grandi modelli linguistici (LLM) influisca sulle capacità multimodali. Le nostre prime scoperte rivelano una tendenza interessante: il ridimensionamento degli LLM compromette in modo sproporzionato le capacità visive, piuttosto che le abilità ereditate dall'LLM. Successivamente, analizziamo se questo calo rifletta principalmente il previsto declino nel ragionamento visivo o una perdita più fondamentale delle abilità percettive. Isolando l'effetto del ridimensionamento degli LLM sulla percezione, riscontriamo che le prestazioni calano comunque bruscamente, spesso eguagliando o superando l'impatto sul ragionamento. Per affrontare questo collo di bottiglia, introduciamo il visual extraction tuning, che addestra esplicitamente il modello a estrarre dettagli visivi rilevanti per l'istruzione in modo coerente tra i diversi compiti. Utilizzando questi dettagli visivi estratti, applichiamo quindi un ragionamento passo-passo per generare le risposte. Insieme, questi componenti formano il nostro approccio Extract+Think, stabilendo un nuovo standard per efficienza e prestazioni in questo ambito.
English
Scaling up multimodal models has enabled remarkable advances in visual understanding and reasoning, but practical demands call for smaller, efficient systems. In this work, we conduct a principled analysis of downscaling intelligence in multimodal models, examining how reduced large language model (LLM) capacity affects multimodal capabilities. Our initial findings reveal an interesting trend: LLM downscaling disproportionately affects visual capabilities, rather than abilities inherited from the LLM. We then examine whether this drop mainly reflects the expected decline in visual reasoning or a more fundamental loss of perceptual abilities. Isolating the effect of LLM downscaling on perception, we find performance still drops sharply, often matching or exceeding the impact on reasoning. To address this bottleneck, we introduce visual extraction tuning, which explicitly trains the model to extract instruction-relevant visual details consistently across tasks. With these extracted visual details, we then apply step-by-step reasoning to generate answers. Together, these components form our Extract+Think approach, setting a new standard for efficiency and performance in this space.