Количество визуализаций: Использование обратной связи зрячих пользователей для создания набора данных описаний диаграмм, ориентированного на людей с нарушениями зрения (BLV)
Sightation Counts: Leveraging Sighted User Feedback in Building a BLV-aligned Dataset of Diagram Descriptions
March 17, 2025
Авторы: Wan Ju Kang, Eunki Kim, Na Min An, Sangryul Kim, Haemin Choi, Ki Hoon Kwak, James Thorne
cs.AI
Аннотация
Зачастую потребности и визуальные способности различаются между группой аннотаторов и конечными пользователями. Создание подробных описаний диаграмм для слепых и слабовидящих (BLV) пользователей представляет собой одну из таких сложных областей. Зрячие аннотаторы могут легко описывать визуальные элементы, однако существующие исследования показывают, что их прямые описания оказываются дорогостоящими, склонными к предвзятости и в некоторой степени не соответствующими стандартам BLV. В данном исследовании мы просим зрячих людей оценивать — а не создавать — описания диаграмм, сгенерированные моделями "визуальный язык" (VLM), которые были обучены с использованием скрытого надзора через многоэтапный вывод. Оценки зрячих оказываются эффективными и полезными для профессиональных педагогов, которые сами являются BLV и обучают людей с нарушениями зрения. Мы представляем Sightation — набор данных описаний диаграмм, охватывающий 5 тысяч диаграмм и 137 тысяч образцов для задач завершения, выбора предпочтений, поиска, ответов на вопросы и обучения логическому мышлению, и демонстрируем их потенциал для тонкой настройки в различных последующих задачах.
English
Often, the needs and visual abilities differ between the annotator group and
the end user group. Generating detailed diagram descriptions for blind and
low-vision (BLV) users is one such challenging domain. Sighted annotators could
describe visuals with ease, but existing studies have shown that direct
generations by them are costly, bias-prone, and somewhat lacking by BLV
standards. In this study, we ask sighted individuals to assess -- rather than
produce -- diagram descriptions generated by vision-language models (VLM) that
have been guided with latent supervision via a multi-pass inference. The
sighted assessments prove effective and useful to professional educators who
are themselves BLV and teach visually impaired learners. We release Sightation,
a collection of diagram description datasets spanning 5k diagrams and 137k
samples for completion, preference, retrieval, question answering, and
reasoning training purposes and demonstrate their fine-tuning potential in
various downstream tasks.Summary
AI-Generated Summary