ChatPaper.aiChatPaper

ユーザーが語らないもの:仕様不足のクエリが視覚言語モデルの限界を規定する

What Users Leave Unsaid: Under-Specified Queries Limit Vision-Language Models

January 7, 2026
著者: Dasol Choi, Guijin Son, Hanwool Lee, Minhyuk Kim, Hyunwoo Ko, Teabin Lim, Ahn Eungyeol, Jungwhan Kim, Seunghyeok Hong, Youngsook Song
cs.AI

要旨

現在の視覚言語ベンチマークは、明確で明示的なプロンプトを持つ構造化された質問が主流である。しかし、実際のユーザークエリは非公式で指示が不十分な場合が多い。ユーザーは自然と多くの情報を省略し、画像に文脈を委ねる傾向がある。本研究ではHAERAE-Visionを提案する。これは韓国のオンラインコミュニティから収集した653件の実世界視覚質問(86,000候補から0.76%を選別)から構成され、各質問に明示的な書き換え版をペアリングし、合計1,306のクエリ変種を備える。39のVLMを評価した結果、最先端モデル(GPT-5、Gemini 2.5 Pro)であっても元のクエリでは50%未満の精度しか達成できないことが判明した。重要なのは、クエリを明示化するだけで8~22ポイントの改善が見られ、特に小規模モデルで効果が顕著であった点である。さらに、ウェブ検索を利用しても、指示不足のクエリは検索なしの明示的クエリより性能が劣り、現行の検索技術ではユーザーが省略した情報を補完できないことが明らかになった。これらの結果は、VLMの困難の相当部分がモデル能力そのものではなく、自然なクエリの指示不足に起因することを示し、ベンチマーク評価と実世界展開の間に存在する重大な隔たりを浮き彫りにしている。
English
Current vision-language benchmarks predominantly feature well-structured questions with clear, explicit prompts. However, real user queries are often informal and underspecified. Users naturally leave much unsaid, relying on images to convey context. We introduce HAERAE-Vision, a benchmark of 653 real-world visual questions from Korean online communities (0.76% survival from 86K candidates), each paired with an explicit rewrite, yielding 1,306 query variants in total. Evaluating 39 VLMs, we find that even state-of-the-art models (GPT-5, Gemini 2.5 Pro) achieve under 50% on the original queries. Crucially, query explicitation alone yields 8 to 22 point improvements, with smaller models benefiting most. We further show that even with web search, under-specified queries underperform explicit queries without search, revealing that current retrieval cannot compensate for what users leave unsaid. Our findings demonstrate that a substantial portion of VLM difficulty stem from natural query under-specification instead of model capability, highlighting a critical gap between benchmark evaluation and real-world deployment.
PDF163January 31, 2026