Los MLLM saben dónde mirar: Percepción sin entrenamiento de detalles visuales pequeños con MLLM multimodales

Resumen

Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han experimentado un progreso rápido en tareas de reconocimiento visual en los últimos años. Dada su potencial integración en muchas aplicaciones críticas, es importante comprender las limitaciones de su percepción visual. En este trabajo, estudiamos si los MLLMs pueden percibir detalles visuales pequeños con la misma eficacia que los grandes al responder preguntas sobre imágenes. Observamos que su rendimiento es muy sensible al tamaño del sujeto visual de la pregunta, y además demostramos que este efecto es causal mediante un estudio de intervención. A continuación, analizamos los patrones de atención de los MLLMs al responder preguntas visuales y, de manera intrigante, encontramos que consistentemente saben dónde mirar, incluso cuando proporcionan una respuesta incorrecta. Basándonos en estos hallazgos, proponemos métodos de intervención visual sin entrenamiento que aprovechan el conocimiento interno de cualquier MLLM, en forma de mapas de atención y gradientes, para mejorar su percepción de detalles visuales pequeños. Evaluamos nuestros métodos propuestos en dos MLLMs ampliamente utilizados y siete benchmarks de respuesta a preguntas visuales, y demostramos que pueden mejorar significativamente la precisión de los MLLMs sin requerir ningún entrenamiento. Nuestros resultados esclarecen el riesgo de aplicar MLLMs a tareas de reconocimiento visual que involucran detalles pequeños e indican que la intervención visual utilizando el estado interno del modelo es una dirección prometedora para mitigar este riesgo.

English

Multimodal Large Language Models (MLLMs) have experienced rapid progress in visual recognition tasks in recent years. Given their potential integration into many critical applications, it is important to understand the limitations of their visual perception. In this work, we study whether MLLMs can perceive small visual details as effectively as large ones when answering questions about images. We observe that their performance is very sensitive to the size of the visual subject of the question, and further show that this effect is in fact causal by conducting an intervention study. Next, we study the attention patterns of MLLMs when answering visual questions, and intriguingly find that they consistently know where to look, even when they provide the wrong answer. Based on these findings, we then propose training-free visual intervention methods that leverage the internal knowledge of any MLLM itself, in the form of attention and gradient maps, to enhance its perception of small visual details. We evaluate our proposed methods on two widely-used MLLMs and seven visual question answering benchmarks and show that they can significantly improve MLLMs' accuracy without requiring any training. Our results elucidate the risk of applying MLLMs to visual recognition tasks concerning small details and indicate that visual intervention using the model's internal state is a promising direction to mitigate this risk.

Los MLLM saben dónde mirar: Percepción sin entrenamiento de detalles visuales pequeños con MLLM multimodales

MLLMs Know Where to Look: Training-free Perception of Small Visual Details with Multimodal LLMs

Resumen

Support