Efficiënte Medische VIE via Reinforcement Learning
Efficient Medical VIE via Reinforcement Learning
June 16, 2025
Auteurs: Lijun Liu, Ruiyang Li, Zhaocheng Liu, Chenglin Zhu, Chong Li, Jiehan Cheng, Qiang Ju, Jian Xie
cs.AI
Samenvatting
Visuele Informatie Extractie (VIE) zet ongestructureerde documentafbeeldingen om in gestructureerde formaten zoals JSON, wat cruciaal is voor medische toepassingen zoals rapportanalyse en online consulten. Traditionele methoden vertrouwen op OCR en taalmodelen, terwijl end-to-end multimodale modellen directe JSON-generatie bieden. Domeinspecifieke schema's en hoge annotatiekosten beperken echter hun effectiviteit in medische VIE. Onze aanpak is gebaseerd op het Reinforcement Learning with Verifiable Rewards (RLVR) framework om deze uitdagingen aan te pakken met slechts 100 geannoteerde samples. Onze aanpak zorgt voor datasetdiversiteit, een gebalanceerd precisie-recall beloningsmechanisme om hallucinaties te verminderen en velddekking te verbeteren, en innovatieve samplingstrategieën om redeneervaardigheden te versterken. Door Qwen2.5-VL-7B te fine-tunen met onze RLVR-methode, behalen we state-of-the-art prestaties op medische VIE-taken, waarbij F1, precisie en recall aanzienlijk verbeteren. Hoewel onze modellen uitblinken in taken die vergelijkbaar zijn met medische datasets, daalt de prestaties bij ongelijke taken, wat de noodzaak van domeinspecifieke optimalisatie benadrukt. Casestudies tonen verder de waarde aan van redeneren tijdens training en inferentie voor VIE.
English
Visual Information Extraction (VIE) converts unstructured document images
into structured formats like JSON, critical for medical applications such as
report analysis and online consultations. Traditional methods rely on OCR and
language models, while end-to-end multimodal models offer direct JSON
generation. However, domain-specific schemas and high annotation costs limit
their effectiveness in medical VIE. We base our approach on the Reinforcement
Learning with Verifiable Rewards (RLVR) framework to address these challenges
using only 100 annotated samples. Our approach ensures dataset diversity, a
balanced precision-recall reward mechanism to reduce hallucinations and improve
field coverage, and innovative sampling strategies to enhance reasoning
capabilities. Fine-tuning Qwen2.5-VL-7B with our RLVR method, we achieve
state-of-the-art performance on medical VIE tasks, significantly improving F1,
precision, and recall. While our models excel on tasks similar to medical
datasets, performance drops on dissimilar tasks, highlighting the need for
domain-specific optimization. Case studies further demonstrate the value of
reasoning during training and inference for VIE.