SRT-H: Ein hierarchisches Framework für autonome Chirurgie durch sprachgesteuertes Imitationslernen
SRT-H: A Hierarchical Framework for Autonomous Surgery via Language Conditioned Imitation Learning
May 15, 2025
papers.authors: Ji Woong Kim, Juo-Tung Chen, Pascal Hansen, Lucy X. Shi, Antony Goldenberg, Samuel Schmidgall, Paul Maria Scheikl, Anton Deguet, Brandon M. White, De Ru Tsai, Richard Cha, Jeffrey Jopling, Chelsea Finn, Axel Krieger
cs.AI
papers.abstract
Die Forschung zu autonomer Chirurgie hat sich weitgehend auf die Automatisierung einfacher Aufgaben in kontrollierten Umgebungen konzentriert. Echte chirurgische Anwendungen erfordern jedoch geschickte Manipulation über längere Zeiträume und die Generalisierung auf die inhärente Variabilität menschlichen Gewebes. Diese Herausforderungen bleiben mit bestehenden logikbasierten oder konventionellen end-to-end Lernansätzen schwer zu bewältigen. Um diese Lücke zu schließen, schlagen wir ein hierarchisches Framework zur Durchführung geschickter, langfristiger chirurgischer Schritte vor. Unser Ansatz nutzt eine High-Level-Policy für die Aufgabenplanung und eine Low-Level-Policy zur Erzeugung von Roboter-Trajektorien. Der High-Level-Planer plant im Sprachraum und generiert aufgabenbezogene oder korrigierende Anweisungen, die den Roboter durch die langfristigen Schritte führen und Fehler der Low-Level-Policy korrigieren. Wir validieren unser Framework durch Ex-vivo-Experimente zur Cholezystektomie, einem häufig praktizierten minimalinvasiven Verfahren, und führen Ablationsstudien durch, um Schlüsselkomponenten des Systems zu bewerten. Unsere Methode erreicht eine Erfolgsrate von 100 % bei acht ungesehenen Ex-vivo-Gallenblasen und arbeitet vollständig autonom ohne menschliches Eingreifen. Diese Arbeit demonstriert schrittweise Autonomie in einem chirurgischen Verfahren und markiert einen Meilenstein auf dem Weg zum klinischen Einsatz autonomer chirurgischer Systeme.
English
Research on autonomous surgery has largely focused on simple task automation
in controlled environments. However, real-world surgical applications demand
dexterous manipulation over extended durations and generalization to the
inherent variability of human tissue. These challenges remain difficult to
address using existing logic-based or conventional end-to-end learning
approaches. To address this gap, we propose a hierarchical framework for
performing dexterous, long-horizon surgical steps. Our approach utilizes a
high-level policy for task planning and a low-level policy for generating robot
trajectories. The high-level planner plans in language space, generating
task-level or corrective instructions that guide the robot through the
long-horizon steps and correct for the low-level policy's errors. We validate
our framework through ex vivo experiments on cholecystectomy, a
commonly-practiced minimally invasive procedure, and conduct ablation studies
to evaluate key components of the system. Our method achieves a 100\% success
rate across eight unseen ex vivo gallbladders, operating fully autonomously
without human intervention. This work demonstrates step-level autonomy in a
surgical procedure, marking a milestone toward clinical deployment of
autonomous surgical systems.