MLLM은 어디를 봐야 할지 안다: 다중모달 LLM을 이용한 작은 시각적 세부 사항의 학습 없이 가능한 인지
MLLMs Know Where to Look: Training-free Perception of Small Visual Details with Multimodal LLMs
February 24, 2025
저자: Jiarui Zhang, Mahyar Khayatkhoei, Prateek Chhikara, Filip Ilievski
cs.AI
초록
최근 멀티모달 대형 언어 모델(MLLMs)은 시각 인식 작업에서 급속한 발전을 이루어 왔습니다. 이러한 모델들이 다양한 중요한 응용 분야에 통합될 가능성을 고려할 때, 이들의 시각적 인지 능력의 한계를 이해하는 것이 중요합니다. 본 연구에서는 MLLMs가 이미지에 대한 질문에 답할 때 작은 시각적 세부 사항을 큰 것만큼 효과적으로 인식할 수 있는지 여부를 조사합니다. 우리는 MLLMs의 성능이 질문의 시각적 대상의 크기에 매우 민감하다는 것을 관찰하고, 더 나아가 개입 연구를 통해 이러한 효과가 실제로 인과적임을 보여줍니다. 다음으로, MLLMs가 시각적 질문에 답할 때의 주의 패턴을 연구한 결과, 흥미롭게도 이들이 잘못된 답을 제공할 때조차도 어디를 봐야 하는지 일관되게 알고 있음을 발견했습니다. 이러한 발견을 바탕으로, 우리는 MLLMs의 내부 지식을 활용한 학습이 필요 없는 시각적 개입 방법을 제안합니다. 이 방법은 주의 맵과 그래디언트 맵의 형태로 MLLMs 자체의 내부 지식을 활용하여 작은 시각적 세부 사항에 대한 인식을 향상시킵니다. 우리는 제안된 방법을 두 개의 널리 사용되는 MLLMs와 일곱 개의 시각적 질문 응답 벤치마크에서 평가하고, 어떠한 학습도 필요 없이 MLLMs의 정확도를 크게 향상시킬 수 있음을 보여줍니다. 우리의 결과는 작은 세부 사항과 관련된 시각 인식 작업에 MLLMs를 적용할 때의 위험을 명확히 하고, 모델의 내부 상태를 사용한 시각적 개입이 이러한 위험을 완화하기 위한 유망한 방향임을 시사합니다.
English
Multimodal Large Language Models (MLLMs) have experienced rapid progress in
visual recognition tasks in recent years. Given their potential integration
into many critical applications, it is important to understand the limitations
of their visual perception. In this work, we study whether MLLMs can perceive
small visual details as effectively as large ones when answering questions
about images. We observe that their performance is very sensitive to the size
of the visual subject of the question, and further show that this effect is in
fact causal by conducting an intervention study. Next, we study the attention
patterns of MLLMs when answering visual questions, and intriguingly find that
they consistently know where to look, even when they provide the wrong answer.
Based on these findings, we then propose training-free visual intervention
methods that leverage the internal knowledge of any MLLM itself, in the form of
attention and gradient maps, to enhance its perception of small visual details.
We evaluate our proposed methods on two widely-used MLLMs and seven visual
question answering benchmarks and show that they can significantly improve
MLLMs' accuracy without requiring any training. Our results elucidate the risk
of applying MLLMs to visual recognition tasks concerning small details and
indicate that visual intervention using the model's internal state is a
promising direction to mitigate this risk.Summary
AI-Generated Summary