O Que os Usuários Deixam por Dizer: Consultas Subespecificadas Limitam os Modelos de Visão e Linguagem

Resumo

Os atuais benchmarks de visão e linguagem apresentam predominantemente perguntas bem estruturadas com instruções claras e explícitas. No entanto, as consultas de usuários reais são frequentemente informais e subespecificadas. Os usuários naturalmente deixam muito implícito, confiando nas imagens para transmitir o contexto. Apresentamos o HAERAE-Vision, um benchmark composto por 653 questões visuais do mundo real, coletadas de comunidades online coreanas (0,76% de sobrevivência de 86 mil candidatos), cada uma emparelhada com uma reformulação explícita, totalizando 1.306 variantes de consulta. Ao avaliar 39 VLMs (Modelos de Linguagem Visual), descobrimos que mesmo os modelos de última geração (GPT-5, Gemini 2.5 Pro) atingem menos de 50% de acerto nas consultas originais. Crucialmente, apenas a explicitização da consulta resulta em melhorias de 8 a 22 pontos, com os modelos menores se beneficiando mais. Demonstramos ainda que, mesmo com busca na web, consultas subespecificadas têm desempenho inferior ao de consultas explícitas sem busca, revelando que a recuperação de informação atual não consegue compensar o que os usuários deixam de dizer. Nossos achados demonstram que uma porção substancial da dificuldade dos VLMs origina-se da subespecificação natural das consultas, e não da capacidade do modelo, destacando uma lacuna crítica entre a avaliação em benchmarks e a implantação no mundo real.

English

Current vision-language benchmarks predominantly feature well-structured questions with clear, explicit prompts. However, real user queries are often informal and underspecified. Users naturally leave much unsaid, relying on images to convey context. We introduce HAERAE-Vision, a benchmark of 653 real-world visual questions from Korean online communities (0.76% survival from 86K candidates), each paired with an explicit rewrite, yielding 1,306 query variants in total. Evaluating 39 VLMs, we find that even state-of-the-art models (GPT-5, Gemini 2.5 Pro) achieve under 50% on the original queries. Crucially, query explicitation alone yields 8 to 22 point improvements, with smaller models benefiting most. We further show that even with web search, under-specified queries underperform explicit queries without search, revealing that current retrieval cannot compensate for what users leave unsaid. Our findings demonstrate that a substantial portion of VLM difficulty stem from natural query under-specification instead of model capability, highlighting a critical gap between benchmark evaluation and real-world deployment.

O Que os Usuários Deixam por Dizer: Consultas Subespecificadas Limitam os Modelos de Visão e Linguagem

What Users Leave Unsaid: Under-Specified Queries Limit Vision-Language Models

Resumo

Support