ChatPaper.aiChatPaper

MedVLSynther: Synthese hochwertiger visueller Frage-Antwort-Paare aus medizinischen Dokumenten mit Generator-Prüfer-LMMs

MedVLSynther: Synthesizing High-Quality Visual Question Answering from Medical Documents with Generator-Verifier LMMs

October 29, 2025
papers.authors: Xiaoke Huang, Ningsen Wang, Hui Liu, Xianfeng Tang, Yuyin Zhou
cs.AI

papers.abstract

Große Multimodale Modelle (LMMs) werden zunehmend fähig, medizinische Fragen zu beantworten, die gemeinsames Schlussfolgern über Bilder und Text erfordern. Dennoch wird das Training allgemeiner medizinischer VQA-Systeme durch das Fehlen großer, offen nutzbarer, hochwertiger Korpora behindert. Wir stellen MedVLSynther vor, ein rubrikengesteuertes Generator-Verifizierer-Framework, das hochwertige Multiple-Choice-VQA-Items direkt aus offener biomedizinischer Literatur synthetisiert, indem es Abbildungen, Bildunterschriften und Textverweisen konditioniert. Der Generator erzeugt eigenständige Stammfragen und parallele, sich gegenseitig ausschließende Optionen gemäß einem maschinenprüfbaren JSON-Schema. Ein mehrstufiger Verifizierer erzwingt essentielle Kriterien (Eigenständigkeit, einzige korrekte Antwort, klinische Validität, Bild-Text-Konsistenz), vergibt feinkörnige Pluspunkte und bestraft häufige Fehlermodi vor der Annahme. Die Anwendung dieser Pipeline auf PubMed Central ergibt MedSynVQA: 13.087 geprüfte Fragen zu 14.803 Bildern, die 13 Bildgebungsmodalitäten und 28 anatomische Regionen abdecken. Das Training offen gewichteter LMMs mit bestärkendem Lernen unter Verwendung verifizierbarer Belohnungen verbessert die Genauigkeit über sechs medizinische VQA-Benchmarks hinweg und erreicht Durchschnittswerte von 55,85 (3B) und 58,15 (7B), mit bis zu 77,57 auf VQA-RAD und 67,76 auf PathVQA, wobei starke medizinische LMMs übertroffen werden. Ablationstests bestätigen, dass sowohl Generierung als auch Verifizierung notwendig sind und dass mehr verifizierte Daten konsistent hilft; eine gezielte Kontaminationsanalyse zeigt keine Leckage von Evaluierungssuiten. Da es vollständig auf offener Literatur und offen gewichteten Modellen operiert, bietet MedVLSynther einen überprüfbaren, reproduzierbaren und datenschutzbewahrenden Weg zu skalierbaren medizinischen VQA-Trainingsdaten.
English
Large Multimodal Models (LMMs) are increasingly capable of answering medical questions that require joint reasoning over images and text, yet training general medical VQA systems is impeded by the lack of large, openly usable, high-quality corpora. We present MedVLSynther, a rubric-guided generator-verifier framework that synthesizes high-quality multiple-choice VQA items directly from open biomedical literature by conditioning on figures, captions, and in-text references. The generator produces self-contained stems and parallel, mutually exclusive options under a machine-checkable JSON schema; a multi-stage verifier enforces essential gates (self-containment, single correct answer, clinical validity, image-text consistency), awards fine-grained positive points, and penalizes common failure modes before acceptance. Applying this pipeline to PubMed Central yields MedSynVQA: 13,087 audited questions over 14,803 images spanning 13 imaging modalities and 28 anatomical regions. Training open-weight LMMs with reinforcement learning using verifiable rewards improves accuracy across six medical VQA benchmarks, achieving averages of 55.85 (3B) and 58.15 (7B), with up to 77.57 on VQA-RAD and 67.76 on PathVQA, outperforming strong medical LMMs. A Ablations verify that both generation and verification are necessary and that more verified data consistently helps, and a targeted contamination analysis detects no leakage from evaluation suites. By operating entirely on open literature and open-weight models, MedVLSynther offers an auditable, reproducible, and privacy-preserving path to scalable medical VQA training data.
PDF61December 2, 2025