Los MLLM saben dónde mirar: Percepción sin entrenamiento de detalles visuales pequeños con MLLM multimodales
MLLMs Know Where to Look: Training-free Perception of Small Visual Details with Multimodal LLMs
February 24, 2025
Autores: Jiarui Zhang, Mahyar Khayatkhoei, Prateek Chhikara, Filip Ilievski
cs.AI
Resumen
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han experimentado un progreso rápido en tareas de reconocimiento visual en los últimos años. Dada su potencial integración en muchas aplicaciones críticas, es importante comprender las limitaciones de su percepción visual. En este trabajo, estudiamos si los MLLMs pueden percibir detalles visuales pequeños con la misma eficacia que los grandes al responder preguntas sobre imágenes. Observamos que su rendimiento es muy sensible al tamaño del sujeto visual de la pregunta, y además demostramos que este efecto es causal mediante un estudio de intervención. A continuación, analizamos los patrones de atención de los MLLMs al responder preguntas visuales y, de manera intrigante, encontramos que consistentemente saben dónde mirar, incluso cuando proporcionan una respuesta incorrecta. Basándonos en estos hallazgos, proponemos métodos de intervención visual sin entrenamiento que aprovechan el conocimiento interno de cualquier MLLM, en forma de mapas de atención y gradientes, para mejorar su percepción de detalles visuales pequeños. Evaluamos nuestros métodos propuestos en dos MLLMs ampliamente utilizados y siete benchmarks de respuesta a preguntas visuales, y demostramos que pueden mejorar significativamente la precisión de los MLLMs sin requerir ningún entrenamiento. Nuestros resultados esclarecen el riesgo de aplicar MLLMs a tareas de reconocimiento visual que involucran detalles pequeños e indican que la intervención visual utilizando el estado interno del modelo es una dirección prometedora para mitigar este riesgo.
English
Multimodal Large Language Models (MLLMs) have experienced rapid progress in
visual recognition tasks in recent years. Given their potential integration
into many critical applications, it is important to understand the limitations
of their visual perception. In this work, we study whether MLLMs can perceive
small visual details as effectively as large ones when answering questions
about images. We observe that their performance is very sensitive to the size
of the visual subject of the question, and further show that this effect is in
fact causal by conducting an intervention study. Next, we study the attention
patterns of MLLMs when answering visual questions, and intriguingly find that
they consistently know where to look, even when they provide the wrong answer.
Based on these findings, we then propose training-free visual intervention
methods that leverage the internal knowledge of any MLLM itself, in the form of
attention and gradient maps, to enhance its perception of small visual details.
We evaluate our proposed methods on two widely-used MLLMs and seven visual
question answering benchmarks and show that they can significantly improve
MLLMs' accuracy without requiring any training. Our results elucidate the risk
of applying MLLMs to visual recognition tasks concerning small details and
indicate that visual intervention using the model's internal state is a
promising direction to mitigate this risk.Summary
AI-Generated Summary