ChatPaper.aiChatPaper

MedVLSynther: Síntese de Perguntas e Respostas Visuais de Alta Qualidade a partir de Documentos Médicos com LMMs Gerador-Verificador

MedVLSynther: Synthesizing High-Quality Visual Question Answering from Medical Documents with Generator-Verifier LMMs

October 29, 2025
Autores: Xiaoke Huang, Ningsen Wang, Hui Liu, Xianfeng Tang, Yuyin Zhou
cs.AI

Resumo

Os Grandes Modelos Multimodais (LMMs) estão cada vez mais capacitados para responder a questões médicas que exigem raciocínio conjunto sobre imagens e texto, no entanto, o treinamento de sistemas gerais de VQA (Visual Question Answering) médicos é dificultado pela falta de grandes corpora de alta qualidade, abertos e utilizáveis. Apresentamos o MedVLSynther, uma estrutura gerador-verificador guiada por rubrica que sintetiza itens de VQA de múltipla escolha de alta qualidade diretamente a partir da literatura biomédica aberta, condicionando-se a figuras, legendas e referências no texto. O gerador produz enunciados auto contidos e opções paralelas e mutuamente exclusivas sob um esquema JSON verificável por máquina; um verificador multiestágio aplica critérios essenciais (auto contenção, resposta correta única, validade clínica, consistência imagem-texto), atribui pontos positivos de granularidade fina e penaliza modos de falha comuns antes da aceitação. A aplicação deste *pipeline* ao PubMed Central resulta no MedSynVQA: 13.087 questões auditadas sobre 14.803 imagens abrangendo 13 modalidades de imagem e 28 regiões anatômicas. O treinamento de LMMs de pesos abertos com aprendizado por reforço usando recompensas verificáveis melhora a precisão em seis *benchmarks* de VQA médico, alcançando médias de 55,85 (3B) e 58,15 (7B), com até 77,57 no VQA-RAD e 67,76 no PathVQA, superando LMMs médicos robustos. Ablações verificam que tanto a geração quanto a verificação são necessárias e que mais dados verificados ajudam consistentemente, e uma análise de contaminação direcionada não detecta vazamento dos conjuntos de avaliação. Ao operar inteiramente em literatura aberta e modelos de pesos abertos, o MedVLSynther oferece um caminho auditável, reproduzível e que preserva a privacidade para dados de treinamento de VQA médico escaláveis.
English
Large Multimodal Models (LMMs) are increasingly capable of answering medical questions that require joint reasoning over images and text, yet training general medical VQA systems is impeded by the lack of large, openly usable, high-quality corpora. We present MedVLSynther, a rubric-guided generator-verifier framework that synthesizes high-quality multiple-choice VQA items directly from open biomedical literature by conditioning on figures, captions, and in-text references. The generator produces self-contained stems and parallel, mutually exclusive options under a machine-checkable JSON schema; a multi-stage verifier enforces essential gates (self-containment, single correct answer, clinical validity, image-text consistency), awards fine-grained positive points, and penalizes common failure modes before acceptance. Applying this pipeline to PubMed Central yields MedSynVQA: 13,087 audited questions over 14,803 images spanning 13 imaging modalities and 28 anatomical regions. Training open-weight LMMs with reinforcement learning using verifiable rewards improves accuracy across six medical VQA benchmarks, achieving averages of 55.85 (3B) and 58.15 (7B), with up to 77.57 on VQA-RAD and 67.76 on PathVQA, outperforming strong medical LMMs. A Ablations verify that both generation and verification are necessary and that more verified data consistently helps, and a targeted contamination analysis detects no leakage from evaluation suites. By operating entirely on open literature and open-weight models, MedVLSynther offers an auditable, reproducible, and privacy-preserving path to scalable medical VQA training data.
PDF61December 2, 2025