ChatPaper.aiChatPaper

MedVLSynther: 생성기-검증기 LMM을 활용한 의료 문서 기반 고품질 시각 질의응답 합성

MedVLSynther: Synthesizing High-Quality Visual Question Answering from Medical Documents with Generator-Verifier LMMs

October 29, 2025
저자: Xiaoke Huang, Ningsen Wang, Hui Liu, Xianfeng Tang, Yuyin Zhou
cs.AI

초록

대규모 멀티모달 모델(LMMs)은 이미지와 텍스트에 대한 통합 추론이 필요한 의학 질문에 답변하는 능력이 점차 향상되고 있으나, 대규모이면서 공개적으로 사용 가능한 고품질 코퍼스의 부족으로 인해 일반적인 의료 VQA 시스템의 훈련은 어려움을 겪고 있습니다. 본 연구는 MedVLSynther를 제시합니다. 이는 루브릭 가이드 생성-검증 프레임워크로, 생의학 논문의 그림, 설명문, 본문 내 참조를 조건으로 하여 고품질의 객관식 VQA 항목을 직접 생성합니다. 생성기는 머신 체크 가능한 JSON 스키마 하에서 독립적인 질문 줄기와 병렬적이며 상호 배타적인 선택지를 생성합니다. 다단계 검증기는 필수 기준(독립성, 단일 정답, 임상적 타당성, 이미지-텍스트 일관성)을 적용하고, 세분화된 긍정 점수를 부여하며, 일반적인 실패 유형에 대해 패널티를 부여한 후 항목을 최종 수락합니다. 이 파이프라인을 PubMed Central에 적용하여 MedSynVQA를 구축했습니다: 13,803개의 이미지에 대한 13,087개의 검수된 질문으로, 13개의 영상 기법과 28개의 해부학적 영역을 포괄합니다. 검증 가능한 보상을 활용한 강화 학습으로 공개 가중치 LMMs을 훈련시킨 결과, 6개의 의료 VQA 벤치마크 전반에서 정확도가 향상되었으며, 3B 모델은 평균 55.85, 7B 모델은 평균 58.15를 달성했습니다. VQA-RAD에서는 최대 77.57, PathVQA에서는 67.76의 성능을 보여 강력한 의료 LMMs을 능가했습니다. 어블레이션 실험을 통해 생성과 검증 단계가 모두 필요하며, 검증된 데이터가 많을수록 지속적으로 도움이 됨을 확인했습니다. 또한 표적 오염 분석을 통해 평가 세트로부터의 유출은 발견되지 않았습니다. MedVLSynther는 전 과정을 공개 논문과 공개 가중치 모델에 기반하여 운영함으로써, 검증 가능하고 재현 가능하며 개인정보를 보호하는 방식으로 확장 가능한 의료 VQA 훈련 데이터를 구축하는 경로를 제시합니다.
English
Large Multimodal Models (LMMs) are increasingly capable of answering medical questions that require joint reasoning over images and text, yet training general medical VQA systems is impeded by the lack of large, openly usable, high-quality corpora. We present MedVLSynther, a rubric-guided generator-verifier framework that synthesizes high-quality multiple-choice VQA items directly from open biomedical literature by conditioning on figures, captions, and in-text references. The generator produces self-contained stems and parallel, mutually exclusive options under a machine-checkable JSON schema; a multi-stage verifier enforces essential gates (self-containment, single correct answer, clinical validity, image-text consistency), awards fine-grained positive points, and penalizes common failure modes before acceptance. Applying this pipeline to PubMed Central yields MedSynVQA: 13,087 audited questions over 14,803 images spanning 13 imaging modalities and 28 anatomical regions. Training open-weight LMMs with reinforcement learning using verifiable rewards improves accuracy across six medical VQA benchmarks, achieving averages of 55.85 (3B) and 58.15 (7B), with up to 77.57 on VQA-RAD and 67.76 on PathVQA, outperforming strong medical LMMs. A Ablations verify that both generation and verification are necessary and that more verified data consistently helps, and a targeted contamination analysis detects no leakage from evaluation suites. By operating entirely on open literature and open-weight models, MedVLSynther offers an auditable, reproducible, and privacy-preserving path to scalable medical VQA training data.
PDF61December 2, 2025