Médecine VIE Efficace via l'Apprentissage par Renforcement
Efficient Medical VIE via Reinforcement Learning
June 16, 2025
Auteurs: Lijun Liu, Ruiyang Li, Zhaocheng Liu, Chenglin Zhu, Chong Li, Jiehan Cheng, Qiang Ju, Jian Xie
cs.AI
Résumé
L'extraction d'informations visuelles (VIE) transforme des images de documents non structurés en formats structurés tels que JSON, essentiels pour des applications médicales comme l'analyse de rapports et les consultations en ligne. Les méthodes traditionnelles s'appuient sur la reconnaissance optique de caractères (OCR) et des modèles de langage, tandis que les modèles multimodaux de bout en bout permettent une génération directe de JSON. Cependant, les schémas spécifiques au domaine et les coûts élevés d'annotation limitent leur efficacité dans le contexte médical de la VIE. Nous fondons notre approche sur le cadre d'apprentissage par renforcement avec récompenses vérifiables (RLVR) pour relever ces défis en utilisant seulement 100 échantillons annotés. Notre approche garantit la diversité des ensembles de données, un mécanisme de récompense équilibré entre précision et rappel pour réduire les hallucinations et améliorer la couverture des champs, ainsi que des stratégies d'échantillonnage innovantes pour renforcer les capacités de raisonnement. En affinant Qwen2.5-VL-7B avec notre méthode RLVR, nous obtenons des performances de pointe sur les tâches de VIE médicale, améliorant significativement les scores F1, la précision et le rappel. Bien que nos modèles excellent sur des tâches similaires aux ensembles de données médicaux, leur performance diminue sur des tâches dissimilaires, soulignant la nécessité d'une optimisation spécifique au domaine. Des études de cas démontrent en outre la valeur du raisonnement pendant l'entraînement et l'inférence pour la VIE.
English
Visual Information Extraction (VIE) converts unstructured document images
into structured formats like JSON, critical for medical applications such as
report analysis and online consultations. Traditional methods rely on OCR and
language models, while end-to-end multimodal models offer direct JSON
generation. However, domain-specific schemas and high annotation costs limit
their effectiveness in medical VIE. We base our approach on the Reinforcement
Learning with Verifiable Rewards (RLVR) framework to address these challenges
using only 100 annotated samples. Our approach ensures dataset diversity, a
balanced precision-recall reward mechanism to reduce hallucinations and improve
field coverage, and innovative sampling strategies to enhance reasoning
capabilities. Fine-tuning Qwen2.5-VL-7B with our RLVR method, we achieve
state-of-the-art performance on medical VIE tasks, significantly improving F1,
precision, and recall. While our models excel on tasks similar to medical
datasets, performance drops on dissimilar tasks, highlighting the need for
domain-specific optimization. Case studies further demonstrate the value of
reasoning during training and inference for VIE.