ChatPaper.aiChatPaper

Эффективное медицинское виртуальное интерактивное окружение с использованием обучения с подкреплением

Efficient Medical VIE via Reinforcement Learning

June 16, 2025
Авторы: Lijun Liu, Ruiyang Li, Zhaocheng Liu, Chenglin Zhu, Chong Li, Jiehan Cheng, Qiang Ju, Jian Xie
cs.AI

Аннотация

Извлечение визуальной информации (Visual Information Extraction, VIE) преобразует неструктурированные изображения документов в структурированные форматы, такие как JSON, что критически важно для медицинских приложений, таких как анализ отчетов и онлайн-консультации. Традиционные методы полагаются на OCR и языковые модели, тогда как сквозные мультимодальные модели предлагают прямое генерирование JSON. Однако доменно-специфичные схемы и высокие затраты на аннотирование ограничивают их эффективность в медицинском VIE. Мы основываем наш подход на фреймворке Reinforcement Learning with Verifiable Rewards (RLVR) для решения этих проблем, используя всего 100 аннотированных образцов. Наш подход обеспечивает разнообразие набора данных, сбалансированный механизм вознаграждения для точности и полноты, чтобы уменьшить галлюцинации и улучшить охват полей, а также инновационные стратегии выборки для повышения способностей к рассуждению. Тонкая настройка модели Qwen2.5-VL-7B с использованием нашего метода RLVR позволяет достичь передовых результатов в задачах медицинского VIE, значительно улучшая показатели F1, точности и полноты. Хотя наши модели превосходно справляются с задачами, схожими с медицинскими наборами данных, их производительность снижается на несхожих задачах, что подчеркивает необходимость доменно-специфичной оптимизации. Кейс-стади дополнительно демонстрируют ценность рассуждений во время обучения и вывода для VIE.
English
Visual Information Extraction (VIE) converts unstructured document images into structured formats like JSON, critical for medical applications such as report analysis and online consultations. Traditional methods rely on OCR and language models, while end-to-end multimodal models offer direct JSON generation. However, domain-specific schemas and high annotation costs limit their effectiveness in medical VIE. We base our approach on the Reinforcement Learning with Verifiable Rewards (RLVR) framework to address these challenges using only 100 annotated samples. Our approach ensures dataset diversity, a balanced precision-recall reward mechanism to reduce hallucinations and improve field coverage, and innovative sampling strategies to enhance reasoning capabilities. Fine-tuning Qwen2.5-VL-7B with our RLVR method, we achieve state-of-the-art performance on medical VIE tasks, significantly improving F1, precision, and recall. While our models excel on tasks similar to medical datasets, performance drops on dissimilar tasks, highlighting the need for domain-specific optimization. Case studies further demonstrate the value of reasoning during training and inference for VIE.
PDF252June 18, 2025