Ciò che gli utenti non dicono: query sotto-specificate limitano i modelli visione-linguaggio

Abstract

Gli attuali benchmark visione-linguaggio presentano principalmente domande ben strutturate con prompt chiari ed espliciti. Tuttavia, le query degli utenti reali sono spesso informali e sottospecificate. Gli utenti lasciano naturalmente molto non detto, affidandosi alle immagini per veicolare il contesto. Introduciamo HAERAE-Vision, un benchmark di 653 domande visive del mondo reale provenienti da comunità online coreane (0,76% di sopravvivenza da 86.000 candidati), ciascuna abbinata a una riscrittura esplicita, per un totale di 1.306 varianti di query. Valutando 39 VLM, scopriamo che anche i modelli all'avanguardia (GPT-5, Gemini 2.5 Pro) ottengono meno del 50% sulle query originali. Crucialmente, la sola esplicitazione della query produce miglioramenti da 8 a 22 punti, con i modelli più piccoli che ne beneficiano maggiormente. Mostriamo inoltre che anche con la ricerca web, le query sottospecificate ottengono risultati inferiori rispetto alle query esplicite senza ricerca, rivelando che l'attuale retrieval non può compensare ciò che gli utenti lasciano non detto. I nostri risultati dimostrano che una parte sostanziale della difficoltà dei VLM deriva dalla sottospecificazione naturale della query invece che dalle capacità del modello, evidenziando un divario critico tra la valutazione sui benchmark e il dispiegamento nel mondo reale.

English

Current vision-language benchmarks predominantly feature well-structured questions with clear, explicit prompts. However, real user queries are often informal and underspecified. Users naturally leave much unsaid, relying on images to convey context. We introduce HAERAE-Vision, a benchmark of 653 real-world visual questions from Korean online communities (0.76% survival from 86K candidates), each paired with an explicit rewrite, yielding 1,306 query variants in total. Evaluating 39 VLMs, we find that even state-of-the-art models (GPT-5, Gemini 2.5 Pro) achieve under 50% on the original queries. Crucially, query explicitation alone yields 8 to 22 point improvements, with smaller models benefiting most. We further show that even with web search, under-specified queries underperform explicit queries without search, revealing that current retrieval cannot compensate for what users leave unsaid. Our findings demonstrate that a substantial portion of VLM difficulty stem from natural query under-specification instead of model capability, highlighting a critical gap between benchmark evaluation and real-world deployment.

Ciò che gli utenti non dicono: query sotto-specificate limitano i modelli visione-linguaggio

What Users Leave Unsaid: Under-Specified Queries Limit Vision-Language Models

Abstract

Support