강화 학습을 통한 효율적인 의료 가상 환경 인터페이스
Efficient Medical VIE via Reinforcement Learning
June 16, 2025
저자: Lijun Liu, Ruiyang Li, Zhaocheng Liu, Chenglin Zhu, Chong Li, Jiehan Cheng, Qiang Ju, Jian Xie
cs.AI
초록
시각 정보 추출(Visual Information Extraction, VIE)은 구조화되지 않은 문서 이미지를 JSON과 같은 구조화된 형식으로 변환하며, 이는 보고서 분석 및 온라인 상담과 같은 의료 응용 분야에서 중요합니다. 전통적인 방법은 OCR(광학 문자 인식) 및 언어 모델에 의존하는 반면, 종단 간(end-to-end) 다중 모달 모델은 직접 JSON 생성을 제공합니다. 그러나 도메인 특화 스키마와 높은 주석 비용은 의료 VIE에서의 효과를 제한합니다. 우리는 이러한 문제를 해결하기 위해 검증 가능한 보상을 활용한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR) 프레임워크를 기반으로 접근하며, 단 100개의 주석 샘플만을 사용합니다. 우리의 접근 방식은 데이터셋 다양성을 보장하고, 환각(hallucination)을 줄이고 필드 커버리지를 향상시키기 위해 정밀도-재현율 균형 보상 메커니즘을 적용하며, 추론 능력을 강화하기 위한 혁신적인 샘플링 전략을 도입합니다. Qwen2.5-VL-7B 모델을 우리의 RLVR 방법으로 미세 조정하여, 의료 VIE 작업에서 최첨단 성능을 달성하고 F1, 정밀도, 재현율을 크게 개선했습니다. 우리의 모델은 의료 데이터셋과 유사한 작업에서 뛰어난 성능을 보이지만, 유사하지 않은 작업에서는 성능이 저하되어 도메인 특화 최적화의 필요성을 강조합니다. 사례 연구는 VIE를 위한 훈련 및 추론 과정에서의 추론 가치를 추가로 입증합니다.
English
Visual Information Extraction (VIE) converts unstructured document images
into structured formats like JSON, critical for medical applications such as
report analysis and online consultations. Traditional methods rely on OCR and
language models, while end-to-end multimodal models offer direct JSON
generation. However, domain-specific schemas and high annotation costs limit
their effectiveness in medical VIE. We base our approach on the Reinforcement
Learning with Verifiable Rewards (RLVR) framework to address these challenges
using only 100 annotated samples. Our approach ensures dataset diversity, a
balanced precision-recall reward mechanism to reduce hallucinations and improve
field coverage, and innovative sampling strategies to enhance reasoning
capabilities. Fine-tuning Qwen2.5-VL-7B with our RLVR method, we achieve
state-of-the-art performance on medical VIE tasks, significantly improving F1,
precision, and recall. While our models excel on tasks similar to medical
datasets, performance drops on dissimilar tasks, highlighting the need for
domain-specific optimization. Case studies further demonstrate the value of
reasoning during training and inference for VIE.