視覚化カウント:視覚ユーザーのフィードバックを活用したBLV対応図表記述データセットの構築
Sightation Counts: Leveraging Sighted User Feedback in Building a BLV-aligned Dataset of Diagram Descriptions
March 17, 2025
著者: Wan Ju Kang, Eunki Kim, Na Min An, Sangryul Kim, Haemin Choi, Ki Hoon Kwak, James Thorne
cs.AI
要旨
多くの場合、注釈者グループとエンドユーザーグループのニーズや視覚能力は異なります。特に、視覚障害者や弱視者(BLV)向けの詳細な図表説明を生成することは、そのような難しい領域の一つです。視覚を持つ注釈者は視覚情報を容易に説明できますが、既存の研究では、彼らによる直接的な生成はコストがかかり、バイアスが生じやすく、BLVの基準から見るとやや不十分であることが示されています。本研究では、視覚を持つ個人に、視覚言語モデル(VLM)がマルチパス推論を通じて潜在的な監督を受けて生成した図表説明を評価してもらうことを求めました。この視覚者による評価は、自身がBLVであり視覚障害者を教える専門教育者にとって有効かつ有用であることが証明されました。私たちは、5,000の図表と137,000のサンプルをカバーする図表説明データセット「Sightation」を公開し、完成、選好、検索、質問応答、推論トレーニングの目的で利用できることを示しました。さらに、これらのデータセットが様々な下流タスクでのファインチューニングに有効であることを実証しました。
English
Often, the needs and visual abilities differ between the annotator group and
the end user group. Generating detailed diagram descriptions for blind and
low-vision (BLV) users is one such challenging domain. Sighted annotators could
describe visuals with ease, but existing studies have shown that direct
generations by them are costly, bias-prone, and somewhat lacking by BLV
standards. In this study, we ask sighted individuals to assess -- rather than
produce -- diagram descriptions generated by vision-language models (VLM) that
have been guided with latent supervision via a multi-pass inference. The
sighted assessments prove effective and useful to professional educators who
are themselves BLV and teach visually impaired learners. We release Sightation,
a collection of diagram description datasets spanning 5k diagrams and 137k
samples for completion, preference, retrieval, question answering, and
reasoning training purposes and demonstrate their fine-tuning potential in
various downstream tasks.Summary
AI-Generated Summary