VIE Médica Eficiente via Aprendizado por Reforço
Efficient Medical VIE via Reinforcement Learning
June 16, 2025
Autores: Lijun Liu, Ruiyang Li, Zhaocheng Liu, Chenglin Zhu, Chong Li, Jiehan Cheng, Qiang Ju, Jian Xie
cs.AI
Resumo
A Extração de Informação Visual (VIE) converte imagens de documentos não estruturados em formatos estruturados como JSON, essencial para aplicações médicas como análise de relatórios e consultas online. Métodos tradicionais dependem de OCR e modelos de linguagem, enquanto modelos multimodais de ponta a ponta oferecem geração direta de JSON. No entanto, esquemas específicos de domínio e altos custos de anotação limitam sua eficácia na VIE médica. Nossa abordagem é baseada no framework de Aprendizado por Reforço com Recompensas Verificáveis (RLVR) para enfrentar esses desafios utilizando apenas 100 amostras anotadas. Nossa abordagem garante diversidade do conjunto de dados, um mecanismo de recompensa de precisão-recall equilibrado para reduzir alucinações e melhorar a cobertura de campos, e estratégias de amostragem inovadoras para aprimorar as capacidades de raciocínio. Ao ajustar o Qwen2.5-VL-7B com nosso método RLVR, alcançamos desempenho de ponta em tarefas de VIE médica, melhorando significativamente F1, precisão e recall. Embora nossos modelos se destaquem em tarefas semelhantes a conjuntos de dados médicos, o desempenho cai em tarefas dissimilares, destacando a necessidade de otimização específica de domínio. Estudos de caso demonstram ainda mais o valor do raciocínio durante o treinamento e inferência para VIE.
English
Visual Information Extraction (VIE) converts unstructured document images
into structured formats like JSON, critical for medical applications such as
report analysis and online consultations. Traditional methods rely on OCR and
language models, while end-to-end multimodal models offer direct JSON
generation. However, domain-specific schemas and high annotation costs limit
their effectiveness in medical VIE. We base our approach on the Reinforcement
Learning with Verifiable Rewards (RLVR) framework to address these challenges
using only 100 annotated samples. Our approach ensures dataset diversity, a
balanced precision-recall reward mechanism to reduce hallucinations and improve
field coverage, and innovative sampling strategies to enhance reasoning
capabilities. Fine-tuning Qwen2.5-VL-7B with our RLVR method, we achieve
state-of-the-art performance on medical VIE tasks, significantly improving F1,
precision, and recall. While our models excel on tasks similar to medical
datasets, performance drops on dissimilar tasks, highlighting the need for
domain-specific optimization. Case studies further demonstrate the value of
reasoning during training and inference for VIE.