SRT-H: Un Marco Jerárquico para la Cirugía Autónoma mediante Aprendizaje por Imitación Condicionado por Lenguaje
SRT-H: A Hierarchical Framework for Autonomous Surgery via Language Conditioned Imitation Learning
May 15, 2025
Autores: Ji Woong Kim, Juo-Tung Chen, Pascal Hansen, Lucy X. Shi, Antony Goldenberg, Samuel Schmidgall, Paul Maria Scheikl, Anton Deguet, Brandon M. White, De Ru Tsai, Richard Cha, Jeffrey Jopling, Chelsea Finn, Axel Krieger
cs.AI
Resumen
La investigación sobre cirugía autónoma se ha centrado principalmente en la automatización de tareas simples en entornos controlados. Sin embargo, las aplicaciones quirúrgicas en el mundo real requieren manipulación diestra durante períodos prolongados y generalización ante la variabilidad inherente de los tejidos humanos. Estos desafíos siguen siendo difíciles de abordar utilizando enfoques basados en lógica convencional o aprendizaje de extremo a extremo. Para abordar esta brecha, proponemos un marco jerárquico para realizar pasos quirúrgicos diestros y de largo alcance. Nuestro enfoque utiliza una política de alto nivel para la planificación de tareas y una política de bajo nivel para generar trayectorias del robot. El planificador de alto nivel opera en el espacio del lenguaje, generando instrucciones a nivel de tarea o correctivas que guían al robot a través de los pasos de largo alcance y corrigen los errores de la política de bajo nivel. Validamos nuestro marco mediante experimentos ex vivo en colecistectomía, un procedimiento mínimamente invasivo comúnmente practicado, y realizamos estudios de ablación para evaluar componentes clave del sistema. Nuestro método logra una tasa de éxito del 100% en ocho vesículas biliares ex vivo no vistas, operando de manera completamente autónoma sin intervención humana. Este trabajo demuestra autonomía a nivel de pasos en un procedimiento quirúrgico, marcando un hito hacia el despliegue clínico de sistemas quirúrgicos autónomos.
English
Research on autonomous surgery has largely focused on simple task automation
in controlled environments. However, real-world surgical applications demand
dexterous manipulation over extended durations and generalization to the
inherent variability of human tissue. These challenges remain difficult to
address using existing logic-based or conventional end-to-end learning
approaches. To address this gap, we propose a hierarchical framework for
performing dexterous, long-horizon surgical steps. Our approach utilizes a
high-level policy for task planning and a low-level policy for generating robot
trajectories. The high-level planner plans in language space, generating
task-level or corrective instructions that guide the robot through the
long-horizon steps and correct for the low-level policy's errors. We validate
our framework through ex vivo experiments on cholecystectomy, a
commonly-practiced minimally invasive procedure, and conduct ablation studies
to evaluate key components of the system. Our method achieves a 100\% success
rate across eight unseen ex vivo gallbladders, operating fully autonomously
without human intervention. This work demonstrates step-level autonomy in a
surgical procedure, marking a milestone toward clinical deployment of
autonomous surgical systems.