Gimnasio de IA en Salud para Agentes Médicos

Resumen

El razonamiento clínico exige interacciones de múltiples pasos —recopilar historiales médicos, solicitar pruebas, interpretar resultados y tomar decisiones terapéuticas seguras—, sin embargo, un entorno de entrenamiento unificado que proporcione la amplitud de dominios clínicos y herramientas especializadas para entrenar agentes de IA médica generalizables mediante aprendizaje por refuerzo sigue siendo esquivo. Presentamos un estudio empírico integral de aprendizaje por refuerzo (RL) agencial de múltiples turnos para IA médica, construido sobre [nombre del entorno], un entorno compatible con Gymnasium que abarca 10 dominios clínicos con más de 3.600 tareas, 135 herramientas específicas de dominio y una base de conocimiento de 828.000 pasajes médicos. Nuestro análisis revela que la estructura agencial de múltiples turnos degenera en monólogos verbosos de un solo turno, caracterizados por una explosión monótona de longitud y una erosión simultánea de la frecuencia de uso de herramientas. Caracterizamos cómo este colapso, junto con la inestabilidad de la destilación, surge de la desalineación de las recompensas terminales dispersas con las trayectorias clínicas secuenciales. Encontramos que el GRPO estándar logra una alta precisión final en algunos benchmarks, pero sufre de inestabilidad en el entrenamiento, evidenciada por oscilaciones significativas en la longitud de las respuestas y períodos de convergencia prolongados. Para mejorar la eficiencia y estabilidad del entrenamiento, proponemos la Destilación en Política con Truncamiento por Turno (TT-OPD), un marco de auto-destilación donde un profesor de media móvil exponencial (EMA) sin gradientes aprovecha información privilegiada de resultado para proporcionar una regularización KL densa y consciente del resultado en cada turno de conversación. TT-OPD logra el mejor rendimiento en 10 de 18 benchmarks, con una mejora promedio de +3.9 pp sobre la línea base no-RL, con una convergencia temprana más rápida, una longitud de respuesta controlada y un uso sostenido de herramientas en múltiples turnos.

English

Clinical reasoning demands multi-step interactions -- gathering patient history, ordering tests, interpreting results, and making safe treatment decisions -- yet a unified training environment provides the breadth of clinical domains and specialized tools to train generalizable medical AI agents through reinforcement learning remains elusive. We present a comprehensive empirical study of multi-turn agentic RL for medical AI, built on , a gymnasium-compatible environment spanning 10 clinical domains with 3.6K+ tasks, 135 domain-specific tools, and a knowledge base of 828K medical passages. Our analysis reveals that agentic multi-turn structure degrades into verbose single-turn monologues, characterized by monotonic length explosion and a simultaneous erosion of tool-use frequency. We characterize how this collapse, alongside distillation instability, stems from the misalignment of sparse terminal rewards with sequential clinical trajectories. We find that vanilla GRPO achieves strong final accuracy on some benchmarks but suffers from training instability, evidenced by significant oscillations in response length and prolonged convergence periods. To improve training efficiency and stability, we propose Turn-level Truncated On-Policy Distillation (TT-OPD), a self-distillation framework where a gradient-free EMA teacher leverages outcome-privileged information to provide dense, outcome-aware KL regularization at every conversation turn. TT-OPD achieves the best performance on 10 of 18 benchmarks with an average +3.9~pp improvement over the non-RL baseline with faster early convergence, controlled response length, and sustained multi-turn tool use.

Gimnasio de IA en Salud para Agentes Médicos

Healthcare AI GYM for Medical Agents

Resumen

Support