Количество визуализаций: Использование обратной связи зрячих пользователей для создания набора данных описаний диаграмм, ориентированного на людей с нарушениями зрения (BLV)

Аннотация

Зачастую потребности и визуальные способности различаются между группой аннотаторов и конечными пользователями. Создание подробных описаний диаграмм для слепых и слабовидящих (BLV) пользователей представляет собой одну из таких сложных областей. Зрячие аннотаторы могут легко описывать визуальные элементы, однако существующие исследования показывают, что их прямые описания оказываются дорогостоящими, склонными к предвзятости и в некоторой степени не соответствующими стандартам BLV. В данном исследовании мы просим зрячих людей оценивать — а не создавать — описания диаграмм, сгенерированные моделями "визуальный язык" (VLM), которые были обучены с использованием скрытого надзора через многоэтапный вывод. Оценки зрячих оказываются эффективными и полезными для профессиональных педагогов, которые сами являются BLV и обучают людей с нарушениями зрения. Мы представляем Sightation — набор данных описаний диаграмм, охватывающий 5 тысяч диаграмм и 137 тысяч образцов для задач завершения, выбора предпочтений, поиска, ответов на вопросы и обучения логическому мышлению, и демонстрируем их потенциал для тонкой настройки в различных последующих задачах.

English

Often, the needs and visual abilities differ between the annotator group and the end user group. Generating detailed diagram descriptions for blind and low-vision (BLV) users is one such challenging domain. Sighted annotators could describe visuals with ease, but existing studies have shown that direct generations by them are costly, bias-prone, and somewhat lacking by BLV standards. In this study, we ask sighted individuals to assess -- rather than produce -- diagram descriptions generated by vision-language models (VLM) that have been guided with latent supervision via a multi-pass inference. The sighted assessments prove effective and useful to professional educators who are themselves BLV and teach visually impaired learners. We release Sightation, a collection of diagram description datasets spanning 5k diagrams and 137k samples for completion, preference, retrieval, question answering, and reasoning training purposes and demonstrate their fine-tuning potential in various downstream tasks.

Sightation Counts: Leveraging Sighted User Feedback in Building a BLV-aligned Dataset of Diagram Descriptions

Аннотация

Support