MedVLSynther : Synthèse de questions-réponses visuelles de haute qualité à partir de documents médicaux avec des LMMs Générateur-Vérificateur
MedVLSynther: Synthesizing High-Quality Visual Question Answering from Medical Documents with Generator-Verifier LMMs
October 29, 2025
papers.authors: Xiaoke Huang, Ningsen Wang, Hui Liu, Xianfeng Tang, Yuyin Zhou
cs.AI
papers.abstract
Les grands modèles multimodaux (LMM) sont de plus en plus capables de répondre à des questions médicales nécessitant un raisonnement conjoint sur des images et du texte. Cependant, l'entraînement de systèmes généraux de question-réponse visuelle (VQA) médicaux est entravé par le manque de grands corpus ouverts, utilisables et de haute qualité. Nous présentons MedVLSynther, un framework générateur-vérificateur guidé par une rubrique qui synthétise des items VQA à choix multiples de haute qualité directement à partir de la littérature biomédicale ouverte, en se basant sur les figures, les légendes et les références dans le texte. Le générateur produit des énoncés autonomes et des options parallèles et mutuellement exclusives selon un schéma JSON vérifiable automatiquement ; un vérificateur multi-étapes applique des critères essentiels (autonomie, réponse correcte unique, validité clinique, cohérence image-texte), attribue des points positifs granulaires, et pénalise les modes d'échec courants avant acceptation. L'application de ce pipeline à PubMed Central produit MedSynVQA : 13 087 questions auditées couvrant 14 803 images, 13 modalités d'imagerie et 28 régions anatomiques. L'entraînement de LMM à poids ouverts par apprentissage par renforcement avec des récompenses vérifiables améliore la précision sur six benchmarks de VQA médical, atteignant des moyennes de 55,85 (3B) et 58,15 (7B), avec jusqu'à 77,57 sur VQA-RAD et 67,76 sur PathVQA, surpassant des LMM médicaux robustes. Des ablations vérifient que la génération et la vérification sont toutes deux nécessaires et que davantage de données vérifiées aident systématiquement, et une analyse ciblée de contamination ne détecte aucune fuite depuis les suites d'évaluation. En opérant entièrement sur de la littérature ouverte et des modèles à poids ouverts, MedVLSynther offre une voie auditable, reproductible et respectueuse de la vie privée pour des données d'entraînement VQA médicales évolutives.
English
Large Multimodal Models (LMMs) are increasingly capable of answering medical
questions that require joint reasoning over images and text, yet training
general medical VQA systems is impeded by the lack of large, openly usable,
high-quality corpora. We present MedVLSynther, a rubric-guided
generator-verifier framework that synthesizes high-quality multiple-choice VQA
items directly from open biomedical literature by conditioning on figures,
captions, and in-text references. The generator produces self-contained stems
and parallel, mutually exclusive options under a machine-checkable JSON schema;
a multi-stage verifier enforces essential gates (self-containment, single
correct answer, clinical validity, image-text consistency), awards fine-grained
positive points, and penalizes common failure modes before acceptance. Applying
this pipeline to PubMed Central yields MedSynVQA: 13,087 audited questions over
14,803 images spanning 13 imaging modalities and 28 anatomical regions.
Training open-weight LMMs with reinforcement learning using verifiable rewards
improves accuracy across six medical VQA benchmarks, achieving averages of
55.85 (3B) and 58.15 (7B), with up to 77.57 on VQA-RAD and 67.76 on PathVQA,
outperforming strong medical LMMs. A Ablations verify that both generation and
verification are necessary and that more verified data consistently helps, and
a targeted contamination analysis detects no leakage from evaluation suites. By
operating entirely on open literature and open-weight models, MedVLSynther
offers an auditable, reproducible, and privacy-preserving path to scalable
medical VQA training data.