ChatPaper.aiChatPaper

Was Nutzer unausgesprochen lassen: Unvollständige Anfragen schränken Vision-Sprach-Modelle ein

What Users Leave Unsaid: Under-Specified Queries Limit Vision-Language Models

January 7, 2026
papers.authors: Dasol Choi, Guijin Son, Hanwool Lee, Minhyuk Kim, Hyunwoo Ko, Teabin Lim, Ahn Eungyeol, Jungwhan Kim, Seunghyeok Hong, Youngsook Song
cs.AI

papers.abstract

Aktuelle Vision-Language-Benchmarks bestehen überwiegend aus wohlstrukturierten Fragen mit klaren, expliziten Prompt-Formulierungen. Reale Nutzeranfragen sind jedoch häufig informell und unterbestimmt. Nutzer lassen natürlicherweise vieles unausgesprochen und verlassen sich auf Bilder, um den Kontext zu vermitteln. Wir stellen HAERAE-Vision vor, einen Benchmark mit 653 realen visuellen Fragen aus koreanischen Online-Communities (0,76 % Überlebensrate aus 86.000 Kandidaten), die jeweils mit einer expliziten Neufassung gepaart sind, was insgesamt 1.306 Abfragevarianten ergibt. Bei der Evaluation von 39 VLMs stellen wir fest, dass selbst State-of-the-Art-Modelle (GPT-5, Gemini 2.5 Pro) bei den ursprünglichen Anfragen unter 50 % erreichen. Entscheidend ist, dass die alleinige Explizitmachung der Abfrage Verbesserungen von 8 bis 22 Prozentpunkten bringt, wobei kleinere Modelle am meisten profitieren. Wir zeigen weiter, dass selbst mit Websuche unterbestimmte Anfragen schlechter abschneiden als explizite Anfragen ohne Suche, was offenbart, dass aktuelle Retrieval-Verfahren nicht kompensieren können, was Nutzer unausgesprochen lassen. Unsere Ergebnisse belegen, dass ein erheblicher Teil der Schwierigkeiten von VLMs auf der natürlichen Unterbestimmtheit von Anfragen beruht und nicht auf den Modellfähigkeiten, was eine kritische Lücke zwischen Benchmark-Evaluation und realem Einsatz aufzeigt.
English
Current vision-language benchmarks predominantly feature well-structured questions with clear, explicit prompts. However, real user queries are often informal and underspecified. Users naturally leave much unsaid, relying on images to convey context. We introduce HAERAE-Vision, a benchmark of 653 real-world visual questions from Korean online communities (0.76% survival from 86K candidates), each paired with an explicit rewrite, yielding 1,306 query variants in total. Evaluating 39 VLMs, we find that even state-of-the-art models (GPT-5, Gemini 2.5 Pro) achieve under 50% on the original queries. Crucially, query explicitation alone yields 8 to 22 point improvements, with smaller models benefiting most. We further show that even with web search, under-specified queries underperform explicit queries without search, revealing that current retrieval cannot compensate for what users leave unsaid. Our findings demonstrate that a substantial portion of VLM difficulty stem from natural query under-specification instead of model capability, highlighting a critical gap between benchmark evaluation and real-world deployment.
PDF163January 31, 2026