Efficiente Visualizzazione di Informazioni Mediche tramite Apprendimento per Rinforzo
Efficient Medical VIE via Reinforcement Learning
June 16, 2025
Autori: Lijun Liu, Ruiyang Li, Zhaocheng Liu, Chenglin Zhu, Chong Li, Jiehan Cheng, Qiang Ju, Jian Xie
cs.AI
Abstract
L'estrazione di informazioni visive (VIE) converte immagini di documenti non strutturati in formati strutturati come JSON, cruciali per applicazioni mediche quali l'analisi di referti e le consultazioni online. I metodi tradizionali si basano su OCR e modelli linguistici, mentre i modelli multimodali end-to-end offrono una generazione diretta di JSON. Tuttavia, schemi specifici per dominio e gli elevati costi di annotazione limitano la loro efficacia nella VIE medica. Basiamo il nostro approccio sul framework di Reinforcement Learning con Ricompense Verificabili (RLVR) per affrontare queste sfide utilizzando solo 100 campioni annotati. Il nostro approccio garantisce diversità del dataset, un meccanismo di ricompensa bilanciato tra precisione e richiamo per ridurre le allucinazioni e migliorare la copertura dei campi, e strategie di campionamento innovative per potenziare le capacità di ragionamento. Ottimizzando Qwen2.5-VL-7B con il nostro metodo RLVR, otteniamo prestazioni all'avanguardia nei compiti di VIE medica, migliorando significativamente F1, precisione e richiamo. Sebbene i nostri modelli eccellano in compiti simili ai dataset medici, le prestazioni calano in compiti dissimili, evidenziando la necessità di ottimizzazione specifica per dominio. Studi di caso dimostrano ulteriormente il valore del ragionamento durante l'addestramento e l'inferenza per la VIE.
English
Visual Information Extraction (VIE) converts unstructured document images
into structured formats like JSON, critical for medical applications such as
report analysis and online consultations. Traditional methods rely on OCR and
language models, while end-to-end multimodal models offer direct JSON
generation. However, domain-specific schemas and high annotation costs limit
their effectiveness in medical VIE. We base our approach on the Reinforcement
Learning with Verifiable Rewards (RLVR) framework to address these challenges
using only 100 annotated samples. Our approach ensures dataset diversity, a
balanced precision-recall reward mechanism to reduce hallucinations and improve
field coverage, and innovative sampling strategies to enhance reasoning
capabilities. Fine-tuning Qwen2.5-VL-7B with our RLVR method, we achieve
state-of-the-art performance on medical VIE tasks, significantly improving F1,
precision, and recall. While our models excel on tasks similar to medical
datasets, performance drops on dissimilar tasks, highlighting the need for
domain-specific optimization. Case studies further demonstrate the value of
reasoning during training and inference for VIE.