Искусственный интеллект в здравоохранении: Тренажерный зал для медицинских агентов
Healthcare AI GYM for Medical Agents
May 1, 2026
Авторы: Minbyul Jeong
cs.AI
Аннотация
Клиническое рассуждение требует многоэтапных взаимодействий — сбора анамнеза, назначения анализов, интерпретации результатов и принятия безопасных терапевтических решений — однако создание единой обучающей среды, которая предоставляла бы широту клинических областей и специализированные инструменты для обучения обобщаемых медицинских ИИ-агентов с помощью обучения с подкреплением, остается труднодостижимой целью. Мы представляем всестороннее эмпирическое исследование многоходового агентского ОП для медицинского ИИ, построенное на , совместимой со средой Gymnasium и охватывающей 10 клинических областей с более чем 3,6 тыс. задач, 135 предметно-ориентированными инструментами и базой знаний из 828 тыс. медицинских текстов. Наш анализ показывает, что агентская многоходовая структура вырождается в многословные одноходовые монологи, характеризующиеся монотонным взрывным ростом длины и одновременным снижением частоты использования инструментов. Мы демонстрируем, что этот коллапс, наряду с нестабильностью дистилляции, проистекает из несоответствия разреженных терминальных вознаграждений последовательным клиническим траекториям. Мы обнаружили, что стандартный GRPO демонстрирует высокую итоговую точность на некоторых бенчмарках, но страдает от нестабильности обучения, что выражается в значительных колебаниях длины ответов и длительных периодах сходимости. Для повышения эффективности и стабильности обучения мы предлагаем Пошаговую Усеченную Он-Полиси Дистилляцию (TT-OPD) — фреймворк само-дистилляции, в котором бесградиентный EMA-учитель использует информацию, привилегированную относительно исхода, для обеспечения плотной, учитывающей исход KL-регуляризации на каждом шаге диалога. TT-OPD показывает наилучшие результаты на 10 из 18 бенчмарков со средним улучшением на +3,9 п.п. по сравнению с не-ОП базовым уровнем, обеспечивая более быструю раннюю сходимость, контролируемую длину ответов и устойчивое многоходовое использование инструментов.
English
Clinical reasoning demands multi-step interactions -- gathering patient history, ordering tests, interpreting results, and making safe treatment decisions -- yet a unified training environment provides the breadth of clinical domains and specialized tools to train generalizable medical AI agents through reinforcement learning remains elusive. We present a comprehensive empirical study of multi-turn agentic RL for medical AI, built on , a gymnasium-compatible environment spanning 10 clinical domains with 3.6K+ tasks, 135 domain-specific tools, and a knowledge base of 828K medical passages. Our analysis reveals that agentic multi-turn structure degrades into verbose single-turn monologues, characterized by monotonic length explosion and a simultaneous erosion of tool-use frequency. We characterize how this collapse, alongside distillation instability, stems from the misalignment of sparse terminal rewards with sequential clinical trajectories. We find that vanilla GRPO achieves strong final accuracy on some benchmarks but suffers from training instability, evidenced by significant oscillations in response length and prolonged convergence periods. To improve training efficiency and stability, we propose Turn-level Truncated On-Policy Distillation (TT-OPD), a self-distillation framework where a gradient-free EMA teacher leverages outcome-privileged information to provide dense, outcome-aware KL regularization at every conversation turn. TT-OPD achieves the best performance on 10 of 18 benchmarks with an average +3.9~pp improvement over the non-RL baseline with faster early convergence, controlled response length, and sustained multi-turn tool use.