Wat gebruikers onuitgesproken laten: Ondergespecificeerde zoekopdrachten beperken visie-taalmodellen
What Users Leave Unsaid: Under-Specified Queries Limit Vision-Language Models
January 7, 2026
Auteurs: Dasol Choi, Guijin Son, Hanwool Lee, Minhyuk Kim, Hyunwoo Ko, Teabin Lim, Ahn Eungyeol, Jungwhan Kim, Seunghyeok Hong, Youngsook Song
cs.AI
Samenvatting
Huidige vision-language benchmarks bestaan voornamelijk uit goed gestructureerde vragen met duidelijke, expliciete prompts. Echter, echte gebruikersvragen zijn vaak informeel en ondergespecificeerd. Gebruikers laten van nature veel onuitgesproken en vertrouwen op afbeeldingen om context over te brengen. Wij introduceren HAERAE-Vision, een benchmark met 653 visuele vragen uit de praktijk, afkomstig uit Koreaanse online gemeenschappen (0.76% overleving van 86K kandidaten), elk gekoppeld aan een expliciete herformulering, wat in totaal 1.306 vraagvarianten oplevert. Na evaluatie van 39 VLMs blijkt dat zelfs state-of-the-art modellen (GPT-5, Gemini 2.5 Pro) minder dan 50% scoren op de originele vragen. Cruciaal is dat enkel het expliciteren van de vraag al verbeteringen van 8 tot 22 procentpunten oplevert, waarbij kleinere modellen het meeste baat hebben. Wij tonen verder aan dat zelfs met zoekopdrachten op het web, ondergespecificeerde vragen slechter presteren dan expliciete vragen zonder zoekfunctie, wat aantoont dat huidige retrievalsystemen niet kunnen compenseren voor wat gebruikers onuitgesproken laten. Onze bevindingen tonen aan dat een aanzienlijk deel van de moeilijkheidsgraad voor VLMs voortkomt uit natuurlijke vraag-onderspecificatie in plaats van modelcapaciteit, wat een kritieke kloof tussen benchmarkevaluatie en inzet in de praktijk blootlegt.
English
Current vision-language benchmarks predominantly feature well-structured questions with clear, explicit prompts. However, real user queries are often informal and underspecified. Users naturally leave much unsaid, relying on images to convey context. We introduce HAERAE-Vision, a benchmark of 653 real-world visual questions from Korean online communities (0.76% survival from 86K candidates), each paired with an explicit rewrite, yielding 1,306 query variants in total. Evaluating 39 VLMs, we find that even state-of-the-art models (GPT-5, Gemini 2.5 Pro) achieve under 50% on the original queries. Crucially, query explicitation alone yields 8 to 22 point improvements, with smaller models benefiting most. We further show that even with web search, under-specified queries underperform explicit queries without search, revealing that current retrieval cannot compensate for what users leave unsaid. Our findings demonstrate that a substantial portion of VLM difficulty stem from natural query under-specification instead of model capability, highlighting a critical gap between benchmark evaluation and real-world deployment.