ChatPaper.aiChatPaper

MedVLSynther: Synthese van hoogwaardige visuele vraag-antwoordtaken uit medische documenten met Generator-Verifier LMM's

MedVLSynther: Synthesizing High-Quality Visual Question Answering from Medical Documents with Generator-Verifier LMMs

October 29, 2025
Auteurs: Xiaoke Huang, Ningsen Wang, Hui Liu, Xianfeng Tang, Yuyin Zhou
cs.AI

Samenvatting

Grootschalige multimodale modellen (LMM's) worden steeds beter in staat om medische vragen te beantwoorden die gezamenlijke redenering over afbeeldingen en tekst vereisen. Toch wordt de training van algemene medische VQA-systemen (Visual Question Answering) belemmerd door het gebrek aan grote, openlijk bruikbare, hoogwaardige corpora. Wij presenteren MedVLSynther, een rubriek-gestuurd generator-verificateur raamwerk dat hoogwaardige multiple-choice VQA-items synthetiseert rechtstreeks uit open biomedische literatuur, gebaseerd op figuren, bijschriften en verwijzingen in de tekst. De generator produceert zelfstandige vraagstellingen en parallelle, onderling uitsluitende opties volgens een machine-controleerbaar JSON-schema; een meerfasen verificateur handhaaft essentiële criteria (zelfstandigheid, enkel correct antwoord, klinische validiteit, consistentie tussen beeld en tekst), kent fijnmazige positieve punten toe, en bestraft veelvoorkomende foutmodi vóór acceptatie. Toepassing van deze pijplijn op PubMed Central levert MedSynVQA op: 13.087 gecontroleerde vragen over 14.803 afbeeldingen, verspreid over 13 beeldvormingstechnieken en 28 anatomische regio's. Het trainen van open-gewicht LMM's met reinforcement learning met behulp van verifieerbare beloningen verbetert de nauwkeurigheid op zes medische VQA-ijkpunten, met gemiddelden van 55.85 (3B) en 58.15 (7B), en oplopend tot 77.57 op VQA-RAD en 67.76 op PathVQA, waarmee sterke medische LMM's worden overtroffen. Ablatiestudies verifiëren dat zowel generatie als verificatie noodzakelijk zijn en dat meer geverifieerde data consistent helpt, en een gerichte contaminatieanalyse detecteert geen lekken vanuit evaluatiesets. Door volledig te werken met open literatuur en open-gewicht modellen, biedt MedVLSynther een controleerbaar, reproduceerbaar en privacy-beschermend pad naar schaalbare medische VQA-trainingsdata.
English
Large Multimodal Models (LMMs) are increasingly capable of answering medical questions that require joint reasoning over images and text, yet training general medical VQA systems is impeded by the lack of large, openly usable, high-quality corpora. We present MedVLSynther, a rubric-guided generator-verifier framework that synthesizes high-quality multiple-choice VQA items directly from open biomedical literature by conditioning on figures, captions, and in-text references. The generator produces self-contained stems and parallel, mutually exclusive options under a machine-checkable JSON schema; a multi-stage verifier enforces essential gates (self-containment, single correct answer, clinical validity, image-text consistency), awards fine-grained positive points, and penalizes common failure modes before acceptance. Applying this pipeline to PubMed Central yields MedSynVQA: 13,087 audited questions over 14,803 images spanning 13 imaging modalities and 28 anatomical regions. Training open-weight LMMs with reinforcement learning using verifiable rewards improves accuracy across six medical VQA benchmarks, achieving averages of 55.85 (3B) and 58.15 (7B), with up to 77.57 on VQA-RAD and 67.76 on PathVQA, outperforming strong medical LMMs. A Ablations verify that both generation and verification are necessary and that more verified data consistently helps, and a targeted contamination analysis detects no leakage from evaluation suites. By operating entirely on open literature and open-weight models, MedVLSynther offers an auditable, reproducible, and privacy-preserving path to scalable medical VQA training data.
PDF61December 2, 2025