ChatPaper.aiChatPaper

Effiziente medizinische VIE durch Reinforcement Learning

Efficient Medical VIE via Reinforcement Learning

June 16, 2025
Autoren: Lijun Liu, Ruiyang Li, Zhaocheng Liu, Chenglin Zhu, Chong Li, Jiehan Cheng, Qiang Ju, Jian Xie
cs.AI

Zusammenfassung

Visual Information Extraction (VIE) wandelt unstrukturierte Dokumentbilder in strukturierte Formate wie JSON um, was für medizinische Anwendungen wie Berichtsanalysen und Online-Konsultationen entscheidend ist. Traditionelle Methoden stützen sich auf OCR und Sprachmodelle, während end-to-end multimodale Modelle eine direkte JSON-Generierung ermöglichen. Allerdings schränken domänenspezifische Schemata und hohe Annotationskosten ihre Effektivität im Bereich der medizinischen VIE ein. Unser Ansatz basiert auf dem Reinforcement Learning with Verifiable Rewards (RLVR)-Framework, um diese Herausforderungen mit nur 100 annotierten Proben zu bewältigen. Unser Ansatz gewährleistet Diversität im Datensatz, einen ausgewogenen Präzisions-Recall-Belohnungsmechanismus zur Reduzierung von Halluzinationen und Verbesserung der Feldabdeckung sowie innovative Sampling-Strategien zur Steigerung der Fähigkeiten zur logischen Schlussfolgerung. Durch das Feinabstimmen von Qwen2.5-VL-7B mit unserer RLVR-Methode erreichen wir Spitzenleistungen bei medizinischen VIE-Aufgaben und verbessern F1, Präzision und Recall signifikant. Während unsere Modelle bei Aufgaben, die medizinischen Datensätzen ähneln, hervorragend abschneiden, sinkt die Leistung bei unähnlichen Aufgaben, was die Notwendigkeit einer domänenspezifischen Optimierung unterstreicht. Fallstudien demonstrieren weiterhin den Wert des logischen Schlussfolgerns während des Trainings und der Inferenz für VIE.
English
Visual Information Extraction (VIE) converts unstructured document images into structured formats like JSON, critical for medical applications such as report analysis and online consultations. Traditional methods rely on OCR and language models, while end-to-end multimodal models offer direct JSON generation. However, domain-specific schemas and high annotation costs limit their effectiveness in medical VIE. We base our approach on the Reinforcement Learning with Verifiable Rewards (RLVR) framework to address these challenges using only 100 annotated samples. Our approach ensures dataset diversity, a balanced precision-recall reward mechanism to reduce hallucinations and improve field coverage, and innovative sampling strategies to enhance reasoning capabilities. Fine-tuning Qwen2.5-VL-7B with our RLVR method, we achieve state-of-the-art performance on medical VIE tasks, significantly improving F1, precision, and recall. While our models excel on tasks similar to medical datasets, performance drops on dissimilar tasks, highlighting the need for domain-specific optimization. Case studies further demonstrate the value of reasoning during training and inference for VIE.
PDF252June 18, 2025