ChatPaper.aiChatPaper

사용자가 말하지 않는 것: 불충분한 질의가 시각-언어 모델의 성능을 제한하는 이유

What Users Leave Unsaid: Under-Specified Queries Limit Vision-Language Models

January 7, 2026
저자: Dasol Choi, Guijin Son, Hanwool Lee, Minhyuk Kim, Hyunwoo Ko, Teabin Lim, Ahn Eungyeol, Jungwhan Kim, Seunghyeok Hong, Youngsook Song
cs.AI

초록

현재 비전-언어 벤치마크는 대부분 명확하고 명시적인 프롬프트를 가진 구조화된 질문으로 구성됩니다. 그러나 실제 사용자 질의는 비공식적이고 불충분하게 명시된 경우가 많습니다. 사용자는 이미지가 맥락을 전달할 것이라 기대하며 자연스럽게 많은 내용을 생략합니다. 본 연구는 한국 온라인 커뮤니티에서 수집한 86,000개 후보 문항 중 0.76%인 653개의 실제 시각 질문과 각각에 대한 명시적 재구성 버전을 쌍으로 구성하여 총 1,306개 질의 변형을 포함하는 HAERAE-Vision 벤치마크를 소개합니다. 39개의 VLM을 평가한 결과, 최첨단 모델(GPT-5, Gemini 2.5 Pro)조차 원본 질의에서 50% 미만의 성능을 보였습니다. 중요한 것은 질의 명시화만으로도 8~22점의 성능 향상이 나타났으며, 특히 소규모 모델에서 가장 큰 개선 효과를 확인했습니다. 또한 웹 검색을 활용하더라도 불충분하게 명시된 질의는 검색 없이 명시적 질의를 사용한 경우보다 성능이 낮아, 현재의 검색 기술이 사용자가 생략한 정보를 보완하지 못함을 보여줍니다. 본 연구의 결과는 VLM의 어려움 상당 부분이 모델 능력 자체보다는 자연스러운 질의의 불충분한 명시성에서 비롯됨을 입증하며, 벤치마크 평가와 실제 현장 적용 사이에 존재하는 중요한 격차를 부각합니다.
English
Current vision-language benchmarks predominantly feature well-structured questions with clear, explicit prompts. However, real user queries are often informal and underspecified. Users naturally leave much unsaid, relying on images to convey context. We introduce HAERAE-Vision, a benchmark of 653 real-world visual questions from Korean online communities (0.76% survival from 86K candidates), each paired with an explicit rewrite, yielding 1,306 query variants in total. Evaluating 39 VLMs, we find that even state-of-the-art models (GPT-5, Gemini 2.5 Pro) achieve under 50% on the original queries. Crucially, query explicitation alone yields 8 to 22 point improvements, with smaller models benefiting most. We further show that even with web search, under-specified queries underperform explicit queries without search, revealing that current retrieval cannot compensate for what users leave unsaid. Our findings demonstrate that a substantial portion of VLM difficulty stem from natural query under-specification instead of model capability, highlighting a critical gap between benchmark evaluation and real-world deployment.
PDF163January 31, 2026