Ce que les utilisateurs ne disent pas : les requêtes sous-spécifiées limitent les modèles vision-langage
What Users Leave Unsaid: Under-Specified Queries Limit Vision-Language Models
January 7, 2026
papers.authors: Dasol Choi, Guijin Son, Hanwool Lee, Minhyuk Kim, Hyunwoo Ko, Teabin Lim, Ahn Eungyeol, Jungwhan Kim, Seunghyeok Hong, Youngsook Song
cs.AI
papers.abstract
Les benchmarks actuels en vision et langage sont principalement constitués de questions bien structurées avec des instructions claires et explicites. Cependant, les requêtes réelles des utilisateurs sont souvent informelles et sous-spécifiées. Les utilisateurs omettent naturellement beaucoup d'informations, s'appuyant sur les images pour fournir le contexte. Nous présentons HAERAE-Vision, un benchmark de 653 questions visuelles issues du monde réel, provenant de communautés en ligne coréennes (0,76 % de taux de conservation sur 86 000 candidats), chacune étant associée à une reformulation explicite, totalisant ainsi 1 306 variantes de requêtes. En évaluant 39 modèles de vision et langage (VLM), nous constatons que même les modèles les plus avancés (GPT-5, Gemini 2.5 Pro) obtiennent moins de 50 % de précision sur les requêtes originales. Fait crucial, la simple explicitation des requêtes entraîne des gains de 8 à 22 points, les modèles plus petits en bénéficiant le plus. Nous montrons en outre que même avec une recherche web, les requêtes sous-spécifiées obtiennent de moins bonnes performances que les requêtes explicites sans recherche, révélant que les systèmes de recherche actuels ne peuvent compenser ce que les utilisateurs omettent. Nos résultats démontrent qu'une part substantielle des difficultés des VLM provient de la sous-spécification naturelle des requêtes plutôt que des capacités des modèles, mettant en lumière un écart critique entre l'évaluation sur benchmark et le déploiement en conditions réelles.
English
Current vision-language benchmarks predominantly feature well-structured questions with clear, explicit prompts. However, real user queries are often informal and underspecified. Users naturally leave much unsaid, relying on images to convey context. We introduce HAERAE-Vision, a benchmark of 653 real-world visual questions from Korean online communities (0.76% survival from 86K candidates), each paired with an explicit rewrite, yielding 1,306 query variants in total. Evaluating 39 VLMs, we find that even state-of-the-art models (GPT-5, Gemini 2.5 Pro) achieve under 50% on the original queries. Crucially, query explicitation alone yields 8 to 22 point improvements, with smaller models benefiting most. We further show that even with web search, under-specified queries underperform explicit queries without search, revealing that current retrieval cannot compensate for what users leave unsaid. Our findings demonstrate that a substantial portion of VLM difficulty stem from natural query under-specification instead of model capability, highlighting a critical gap between benchmark evaluation and real-world deployment.