ChatPaper.aiChatPaper

시각화 횟수: 시각 사용자 피드백을 활용한 BLV 맞춤형 다이어그램 설명 데이터셋 구축

Sightation Counts: Leveraging Sighted User Feedback in Building a BLV-aligned Dataset of Diagram Descriptions

March 17, 2025
저자: Wan Ju Kang, Eunki Kim, Na Min An, Sangryul Kim, Haemin Choi, Ki Hoon Kwak, James Thorne
cs.AI

초록

종종 주석 작성자 그룹과 최종 사용자 그룹 간의 요구 사항과 시각적 능력이 다릅니다. 시각 장애 및 저시력(BLV) 사용자를 위한 상세한 다이어그램 설명을 생성하는 것은 이러한 도전적인 영역 중 하나입니다. 시력이 있는 주석 작성자들은 시각 자료를 쉽게 설명할 수 있지만, 기존 연구에 따르면 그들이 직접 생성한 설명은 비용이 많이 들고, 편향되기 쉬우며, BLV 기준으로는 다소 부족한 것으로 나타났습니다. 본 연구에서는 시력이 있는 개인들에게 다중 패스 추론을 통해 잠재적 감독을 받은 시각-언어 모델(VLM)이 생성한 다이어그램 설명을 생성하는 대신 평가하도록 요청했습니다. 시력이 있는 평가자들의 평가는 BLV이며 시각 장애 학습자를 가르치는 전문 교육자들에게 효과적이고 유용한 것으로 입증되었습니다. 우리는 Sightation을 공개했는데, 이는 5천 개의 다이어그램과 13만 7천 개의 샘플로 구성된 다이어그램 설명 데이터셋 컬렉션으로, 완성, 선호도, 검색, 질문 응답 및 추론 훈련 목적을 위해 사용되며, 다양한 하위 작업에서의 미세 조정 가능성을 입증합니다.
English
Often, the needs and visual abilities differ between the annotator group and the end user group. Generating detailed diagram descriptions for blind and low-vision (BLV) users is one such challenging domain. Sighted annotators could describe visuals with ease, but existing studies have shown that direct generations by them are costly, bias-prone, and somewhat lacking by BLV standards. In this study, we ask sighted individuals to assess -- rather than produce -- diagram descriptions generated by vision-language models (VLM) that have been guided with latent supervision via a multi-pass inference. The sighted assessments prove effective and useful to professional educators who are themselves BLV and teach visually impaired learners. We release Sightation, a collection of diagram description datasets spanning 5k diagrams and 137k samples for completion, preference, retrieval, question answering, and reasoning training purposes and demonstrate their fine-tuning potential in various downstream tasks.

Summary

AI-Generated Summary

PDF72March 18, 2025