ChatPaper.aiChatPaper

Количество визуализаций: Использование обратной связи зрячих пользователей для создания набора данных описаний диаграмм, ориентированного на людей с нарушениями зрения (BLV)

Sightation Counts: Leveraging Sighted User Feedback in Building a BLV-aligned Dataset of Diagram Descriptions

March 17, 2025
Авторы: Wan Ju Kang, Eunki Kim, Na Min An, Sangryul Kim, Haemin Choi, Ki Hoon Kwak, James Thorne
cs.AI

Аннотация

Зачастую потребности и визуальные способности различаются между группой аннотаторов и конечными пользователями. Создание подробных описаний диаграмм для слепых и слабовидящих (BLV) пользователей представляет собой одну из таких сложных областей. Зрячие аннотаторы могут легко описывать визуальные элементы, однако существующие исследования показывают, что их прямые описания оказываются дорогостоящими, склонными к предвзятости и в некоторой степени не соответствующими стандартам BLV. В данном исследовании мы просим зрячих людей оценивать — а не создавать — описания диаграмм, сгенерированные моделями "визуальный язык" (VLM), которые были обучены с использованием скрытого надзора через многоэтапный вывод. Оценки зрячих оказываются эффективными и полезными для профессиональных педагогов, которые сами являются BLV и обучают людей с нарушениями зрения. Мы представляем Sightation — набор данных описаний диаграмм, охватывающий 5 тысяч диаграмм и 137 тысяч образцов для задач завершения, выбора предпочтений, поиска, ответов на вопросы и обучения логическому мышлению, и демонстрируем их потенциал для тонкой настройки в различных последующих задачах.
English
Often, the needs and visual abilities differ between the annotator group and the end user group. Generating detailed diagram descriptions for blind and low-vision (BLV) users is one such challenging domain. Sighted annotators could describe visuals with ease, but existing studies have shown that direct generations by them are costly, bias-prone, and somewhat lacking by BLV standards. In this study, we ask sighted individuals to assess -- rather than produce -- diagram descriptions generated by vision-language models (VLM) that have been guided with latent supervision via a multi-pass inference. The sighted assessments prove effective and useful to professional educators who are themselves BLV and teach visually impaired learners. We release Sightation, a collection of diagram description datasets spanning 5k diagrams and 137k samples for completion, preference, retrieval, question answering, and reasoning training purposes and demonstrate their fine-tuning potential in various downstream tasks.

Summary

AI-Generated Summary

PDF72March 18, 2025