VIE Médica Eficiente mediante Aprendizaje por Refuerzo
Efficient Medical VIE via Reinforcement Learning
June 16, 2025
Autores: Lijun Liu, Ruiyang Li, Zhaocheng Liu, Chenglin Zhu, Chong Li, Jiehan Cheng, Qiang Ju, Jian Xie
cs.AI
Resumen
La Extracción de Información Visual (VIE, por sus siglas en inglés) convierte imágenes de documentos no estructurados en formatos estructurados como JSON, lo cual es crucial para aplicaciones médicas como el análisis de informes y consultas en línea. Los métodos tradicionales dependen del Reconocimiento Óptico de Caracteres (OCR) y modelos de lenguaje, mientras que los modelos multimodales de extremo a extremo ofrecen generación directa de JSON. Sin embargo, los esquemas específicos del dominio y los altos costos de anotación limitan su efectividad en VIE médica. Basamos nuestro enfoque en el marco de Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) para abordar estos desafíos utilizando solo 100 muestras anotadas. Nuestro enfoque garantiza diversidad en el conjunto de datos, un mecanismo de recompensa equilibrado entre precisión y exhaustividad para reducir alucinaciones y mejorar la cobertura de campos, y estrategias de muestreo innovadoras para potenciar las capacidades de razonamiento. Al ajustar Qwen2.5-VL-7B con nuestro método RLVR, logramos un rendimiento de vanguardia en tareas de VIE médica, mejorando significativamente las métricas F1, precisión y exhaustividad. Si bien nuestros modelos sobresalen en tareas similares a los conjuntos de datos médicos, su rendimiento disminuye en tareas disímiles, lo que resalta la necesidad de optimización específica del dominio. Estudios de caso demuestran además el valor del razonamiento durante el entrenamiento y la inferencia para VIE.
English
Visual Information Extraction (VIE) converts unstructured document images
into structured formats like JSON, critical for medical applications such as
report analysis and online consultations. Traditional methods rely on OCR and
language models, while end-to-end multimodal models offer direct JSON
generation. However, domain-specific schemas and high annotation costs limit
their effectiveness in medical VIE. We base our approach on the Reinforcement
Learning with Verifiable Rewards (RLVR) framework to address these challenges
using only 100 annotated samples. Our approach ensures dataset diversity, a
balanced precision-recall reward mechanism to reduce hallucinations and improve
field coverage, and innovative sampling strategies to enhance reasoning
capabilities. Fine-tuning Qwen2.5-VL-7B with our RLVR method, we achieve
state-of-the-art performance on medical VIE tasks, significantly improving F1,
precision, and recall. While our models excel on tasks similar to medical
datasets, performance drops on dissimilar tasks, highlighting the need for
domain-specific optimization. Case studies further demonstrate the value of
reasoning during training and inference for VIE.