ChatPaper.aiChatPaper

MedVLSynther: ジェネレータ-検証器LMMを用いた医療文書からの高品質視覚質問応答データ合成

MedVLSynther: Synthesizing High-Quality Visual Question Answering from Medical Documents with Generator-Verifier LMMs

October 29, 2025
著者: Xiaoke Huang, Ningsen Wang, Hui Liu, Xianfeng Tang, Yuyin Zhou
cs.AI

要旨

大規模マルチモーダルモデル(LMM)は、画像とテキストの統合的理解を要する医療質問への回答能力を高めつつあるが、大規模で公開利用可能かつ高品質なコーパスの不足が汎用医療VQAシステムの開発を阻害している。本研究では、オープンな生物医学文献から図版・キャプション・本文参照を条件として、高品質な多肢選択式VQA項目を直接生成するルーブリック指導型の生成者-検証者フレームワーク「MedVLSynther」を提案する。生成者は機械検証可能なJSONスキーマに基づき自己完結型の問題文と並列的で互いに排他的な選択肢を生成し、多段階検証者は必須条件(自己完結性・単一正答・臨床妥当性・画像-テキスト一貫性)の審査、細粒度の加点評価、一般的な失敗パターンの減点を実施した上で採択する。このパイプラインをPubMed Centralに適用して構築した「MedSynVQA」は、13種類の画像モダリティと28の解剖学的領域にわたる14,803枚の画像に対応する13,087問の審査済み問題を包含する。検証可能な報酬を用いた強化学習によるオープンウェイトLMMの訓練により、6つの医療VQAベンチマークで精度向上を達成し(3Bモデル平均55.85%、7Bモデル平均58.15%)、VQA-RADでは77.57%、PathVQAでは67.76%を記録し、強力な医療LMMを凌駕した。アブレーション研究は生成と検証の双方が必須であること、検証済みデータの増加が一貫して有効であることを実証し、対象別汚染分析では評価セットからの漏洩を検出しなかった。オープン文献とオープンウェイトモデルのみで動作するMedVLSyntherは、監査可能性・再現性・プライバシー保護を備えた医療VQA訓練データのスケーラブルな生成経路を提供する。
English
Large Multimodal Models (LMMs) are increasingly capable of answering medical questions that require joint reasoning over images and text, yet training general medical VQA systems is impeded by the lack of large, openly usable, high-quality corpora. We present MedVLSynther, a rubric-guided generator-verifier framework that synthesizes high-quality multiple-choice VQA items directly from open biomedical literature by conditioning on figures, captions, and in-text references. The generator produces self-contained stems and parallel, mutually exclusive options under a machine-checkable JSON schema; a multi-stage verifier enforces essential gates (self-containment, single correct answer, clinical validity, image-text consistency), awards fine-grained positive points, and penalizes common failure modes before acceptance. Applying this pipeline to PubMed Central yields MedSynVQA: 13,087 audited questions over 14,803 images spanning 13 imaging modalities and 28 anatomical regions. Training open-weight LMMs with reinforcement learning using verifiable rewards improves accuracy across six medical VQA benchmarks, achieving averages of 55.85 (3B) and 58.15 (7B), with up to 77.57 on VQA-RAD and 67.76 on PathVQA, outperforming strong medical LMMs. A Ablations verify that both generation and verification are necessary and that more verified data consistently helps, and a targeted contamination analysis detects no leakage from evaluation suites. By operating entirely on open literature and open-weight models, MedVLSynther offers an auditable, reproducible, and privacy-preserving path to scalable medical VQA training data.
PDF61December 2, 2025