ChatPaper.aiChatPaper

MLLMs Weten Waar Ze Moeten Kijken: Trainingsvrije Waarneming van Kleine Visuele Details met Multimodale LLMs

MLLMs Know Where to Look: Training-free Perception of Small Visual Details with Multimodal LLMs

February 24, 2025
Auteurs: Jiarui Zhang, Mahyar Khayatkhoei, Prateek Chhikara, Filip Ilievski
cs.AI

Samenvatting

Multimodale Large Language Models (MLLMs) hebben de afgelopen jaren een snelle vooruitgang geboekt in visuele herkenningstaken. Gezien hun potentiële integratie in veel kritieke toepassingen, is het belangrijk om de beperkingen van hun visuele perceptie te begrijpen. In dit werk onderzoeken we of MLLMs kleine visuele details even effectief kunnen waarnemen als grote details bij het beantwoorden van vragen over afbeeldingen. We observeren dat hun prestaties zeer gevoelig zijn voor de grootte van het visuele onderwerp van de vraag, en tonen verder aan dat dit effect feitelijk causaal is door een interventiestudie uit te voeren. Vervolgens bestuderen we de aandachtspatronen van MLLMs bij het beantwoorden van visuele vragen, en vinden intrigerend genoeg dat ze consistent weten waar ze moeten kijken, zelfs wanneer ze het verkeerde antwoord geven. Op basis van deze bevindingen stellen we vervolgens trainingsvrije visuele interventiemethoden voor die gebruikmaken van de interne kennis van elke MLLM zelf, in de vorm van aandacht- en gradiëntkaarten, om hun perceptie van kleine visuele details te verbeteren. We evalueren onze voorgestelde methoden op twee veelgebruikte MLLMs en zeven visuele vraag-antwoordbenchmarks en laten zien dat ze de nauwkeurigheid van MLLMs aanzienlijk kunnen verbeteren zonder enige training te vereisen. Onze resultaten verduidelijken het risico van het toepassen van MLLMs op visuele herkenningstaken met betrekking tot kleine details en geven aan dat visuele interventie met behulp van de interne toestand van het model een veelbelovende richting is om dit risico te mitigeren.
English
Multimodal Large Language Models (MLLMs) have experienced rapid progress in visual recognition tasks in recent years. Given their potential integration into many critical applications, it is important to understand the limitations of their visual perception. In this work, we study whether MLLMs can perceive small visual details as effectively as large ones when answering questions about images. We observe that their performance is very sensitive to the size of the visual subject of the question, and further show that this effect is in fact causal by conducting an intervention study. Next, we study the attention patterns of MLLMs when answering visual questions, and intriguingly find that they consistently know where to look, even when they provide the wrong answer. Based on these findings, we then propose training-free visual intervention methods that leverage the internal knowledge of any MLLM itself, in the form of attention and gradient maps, to enhance its perception of small visual details. We evaluate our proposed methods on two widely-used MLLMs and seven visual question answering benchmarks and show that they can significantly improve MLLMs' accuracy without requiring any training. Our results elucidate the risk of applying MLLMs to visual recognition tasks concerning small details and indicate that visual intervention using the model's internal state is a promising direction to mitigate this risk.

Summary

AI-Generated Summary

PDF72February 26, 2025