ChatPaper.aiChatPaper

視覚言語モデルは盲目である

Vision language models are blind

July 9, 2024
著者: Pooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen
cs.AI

要旨

視覚機能を備えた大規模言語モデル(VLMs)、例えばGPT-4oやGemini 1.5 Proは、無数の画像-テキストアプリケーションを駆動し、多くの視覚理解ベンチマークで高いスコアを獲得しています。しかし、我々はVLMsが人間にとって極めて簡単な7つの視覚タスクに失敗することを発見しました。例えば、(a) 2つの円が重なっているかどうかを識別する、(b) 2つの線が交差しているかどうかを判断する、(c) 単語の中でどの文字が丸で囲まれているかを特定する、(d) オリンピックのようなロゴに含まれる円の数を数える、といったタスクです。4つの最先端VLMsの驚くほど低いパフォーマンスは、彼らの視覚が、最良の場合でも近視の人が細部をぼやけて見るようなものであり、最悪の場合では、盲目の知的な人が推測を立てるようなものであることを示唆しています。コードは以下で利用可能です: https://vlmsareblind.github.io/
English
Large language models with vision capabilities (VLMs), e.g., GPT-4o and Gemini 1.5 Pro are powering countless image-text applications and scoring high on many vision-understanding benchmarks. Yet, we find that VLMs fail on 7 visual tasks absurdly easy to humans such as identifying (a) whether two circles overlap; (b) whether two lines intersect; (c) which letter is being circled in a word; and (d) counting the number of circles in a Olympic-like logo. The shockingly poor performance of four state-of-the-art VLMs suggests their vision is, at best, like of a person with myopia seeing fine details as blurry, and at worst, like an intelligent person that is blind making educated guesses. Code is available at: https://vlmsareblind.github.io/

Summary

AI-Generated Summary

PDF8317November 28, 2024