Lo que los usuarios dejan sin decir: Las consultas poco especificadas limitan los modelos de visión y lenguaje.
What Users Leave Unsaid: Under-Specified Queries Limit Vision-Language Models
January 7, 2026
Autores: Dasol Choi, Guijin Son, Hanwool Lee, Minhyuk Kim, Hyunwoo Ko, Teabin Lim, Ahn Eungyeol, Jungwhan Kim, Seunghyeok Hong, Youngsook Song
cs.AI
Resumen
Los puntos de referencia actuales de visión y lenguaje presentan predominantemente preguntas bien estructuradas con instrucciones claras y explícitas. Sin embargo, las consultas de usuarios reales suelen ser informales y están subespecificadas. Los usuarios, de forma natural, dejan mucho sin decir, confiando en las imágenes para transmitir el contexto. Presentamos HAERAE-Vision, un punto de referencia compuesto por 653 preguntas visuales del mundo real obtenidas de comunidades en línea coreanas (0.76% de supervivencia de 86K candidatos), cada una emparejada con una reescritura explícita, dando un total de 1,306 variantes de consulta. Al evaluar 39 Modelos de Lenguaje Visual (VLMs), encontramos que incluso los modelos más avanzados (GPT-5, Gemini 2.5 Pro) obtienen menos del 50% de precisión en las consultas originales. Crucialmente, la mera explicitación de la consulta produce mejoras de 8 a 22 puntos, beneficiando más a los modelos más pequeños. Además, demostramos que incluso con búsqueda web, las consultas subespecificadas tienen un rendimiento inferior al de las consultas explícitas sin búsqueda, revelando que la recuperación de información actual no puede compensar lo que los usuarios omiten. Nuestros hallazgos demuestran que una parte sustancial de la dificultad de los VLMs proviene de la subespecificación natural de las consultas, y no de la capacidad del modelo, destacando una brecha crítica entre la evaluación en puntos de referencia y la implementación en el mundo real.
English
Current vision-language benchmarks predominantly feature well-structured questions with clear, explicit prompts. However, real user queries are often informal and underspecified. Users naturally leave much unsaid, relying on images to convey context. We introduce HAERAE-Vision, a benchmark of 653 real-world visual questions from Korean online communities (0.76% survival from 86K candidates), each paired with an explicit rewrite, yielding 1,306 query variants in total. Evaluating 39 VLMs, we find that even state-of-the-art models (GPT-5, Gemini 2.5 Pro) achieve under 50% on the original queries. Crucially, query explicitation alone yields 8 to 22 point improvements, with smaller models benefiting most. We further show that even with web search, under-specified queries underperform explicit queries without search, revealing that current retrieval cannot compensate for what users leave unsaid. Our findings demonstrate that a substantial portion of VLM difficulty stem from natural query under-specification instead of model capability, highlighting a critical gap between benchmark evaluation and real-world deployment.