ChatPaper.aiChatPaper

SurgWorld: Het Leren van Chirurgische Robotbeleidsregels via Wereldmodellering in Video's

SurgWorld: Learning Surgical Robot Policies from Videos via World Modeling

December 29, 2025
Auteurs: Yufan He, Pengfei Guo, Mengya Xu, Zhaoshuo Li, Andriy Myronenko, Dillan Imans, Bingjie Liu, Dongren Yang, Mingxue Gu, Yongnan Ji, Yueming Jin, Ren Zhao, Baiyong Shen, Daguang Xu
cs.AI

Samenvatting

Dataschaarste blijft een fundamentele barrière voor het bereiken van volledig autonome chirurgische robots. Hoewel grootschalige vision-language-action (VLA) modellen indrukwekkende generalisatie hebben getoond in huishoudelijke en industriële manipulatie door gebruik te maken van gekoppelde video-actiegegevens uit diverse domeinen, kampt de chirurgische robotica met een gebrek aan datasets die zowel visuele observaties als accurate robotkinematica bevatten. Daarentegen bestaan er enorme hoeveelheden chirurgische video's, maar deze missen bijbehorende actielabels, wat een directe toepassing van imitatieleren of VLA-training verhindert. In dit werk trachten we dit probleem te verlichten door beleidsmodellen te leren van SurgWorld, een wereldmodel ontworpen voor chirurgische fysieke AI. Wij stelden de Surgical Action Text Alignment (SATA) dataset samen met gedetailleerde actiebeschrijvingen specifiek voor chirurgische robots. Vervolgens bouwden we SurgWorld op basis van het meest geavanceerde fysieke AI-wereldmodel en SATA. Het is in staat om diverse, generaliseerbare en realistische chirurgievideo's te genereren. Wij zijn ook de eersten die een invers dynamisch model gebruiken om pseudokinematica af te leiden uit synthetische chirurgische video's, waardoor synthetische gekoppelde video-actiegegevens worden geproduceerd. Wij tonen aan dat een chirurgisch VLA-beleid, getraind met deze uitgebreide gegevens, aanzienlijk beter presteert dan modellen die alleen op echte demonstraties zijn getraind, op een echt chirurgisch robotplatform. Onze aanpak biedt een schaalbare weg naar autonome verwerving van chirurgische vaardigheden door gebruik te maken van de overvloed aan ongelabelde chirurgische video en generatief wereldmodelleren, waardoor de deur wordt geopend naar generaliseerbare en data-efficiënte beleidsregels voor chirurgische robots.
English
Data scarcity remains a fundamental barrier to achieving fully autonomous surgical robots. While large scale vision language action (VLA) models have shown impressive generalization in household and industrial manipulation by leveraging paired video action data from diverse domains, surgical robotics suffers from the paucity of datasets that include both visual observations and accurate robot kinematics. In contrast, vast corpora of surgical videos exist, but they lack corresponding action labels, preventing direct application of imitation learning or VLA training. In this work, we aim to alleviate this problem by learning policy models from SurgWorld, a world model designed for surgical physical AI. We curated the Surgical Action Text Alignment (SATA) dataset with detailed action description specifically for surgical robots. Then we built SurgeWorld based on the most advanced physical AI world model and SATA. It's able to generate diverse, generalizable and realistic surgery videos. We are also the first to use an inverse dynamics model to infer pseudokinematics from synthetic surgical videos, producing synthetic paired video action data. We demonstrate that a surgical VLA policy trained with these augmented data significantly outperforms models trained only on real demonstrations on a real surgical robot platform. Our approach offers a scalable path toward autonomous surgical skill acquisition by leveraging the abundance of unlabeled surgical video and generative world modeling, thus opening the door to generalizable and data efficient surgical robot policies.
PDF72December 31, 2025