ChatPaper.aiChatPaper

SurgWorld: 세계 모델링을 통한 수술 로봇 동영상 기반 정책 학습

SurgWorld: Learning Surgical Robot Policies from Videos via World Modeling

December 29, 2025
저자: Yufan He, Pengfei Guo, Mengya Xu, Zhaoshuo Li, Andriy Myronenko, Dillan Imans, Bingjie Liu, Dongren Yang, Mingxue Gu, Yongnan Ji, Yueming Jin, Ren Zhao, Baiyong Shen, Daguang Xu
cs.AI

초록

데이터 부족은 완전 자율 수술 로봇을 실현하는 데 있어 근본적인 장벽으로 남아 있습니다. 대규모 시각-언어-행동(VLA) 모델들은 다양한 영역에서 쌍을 이루는 비디오 행동 데이터를 활용하여 가정 및 산업 환경에서의 조작 작업에서 인상적인 일반화 능력을 보여주었지만, 수술 로봇 공학은 시각 관측 데이터와 정확한 로봇 운동학 데이터를 모두 포함하는 데이터셋의 부족으로 어려움을 겪고 있습니다. 반면, 방대한 양의 수술 비디오 자료가 존재하지만, 이들은 해당 행동 라벨이 부족하여 모방 학습이나 VLA 훈련의 직접적인 적용을 방해합니다. 본 연구에서는 수술 물리 AI를 위해 설계된 세계 모델인 SurgWorld로부터 정책 모델을 학습함으로써 이 문제를 완화하고자 합니다. 우리는 특히 수술 로봇을 위해 상세한 행동 설명을 포함하는 Surgical Action Text Alignment(SATA) 데이터셋을 구축했습니다. 그런 다음 가장 진보된 물리 AI 세계 모델과 SATA를 기반으로 SurgeWorld를 구축하였으며, 이는 다양하고 일반화 가능하며 현실적인 수술 비디오를 생성할 수 있습니다. 또한 우리는 역역학 모델을 사용하여 합성 수술 비디오에서 유사 운동학 데이터를 추론함으로써 합성된 쌍을 이루는 비디오-행동 데이터를 생성한 최초의 사례입니다. 우리는 이러한 증강 데이터로 훈련된 수술 VLA 정책이 실제 수술 로봇 플랫폼에서 오직 실제 시범 데이터만으로 훈련된 모델을 크게 능가함을 입증합니다. 우리의 접근 방식은 레이블이 없는 풍부한 수술 비디오와 생성형 세계 모델링을 활용하여 자율 수술 기술 습득으로 가는 확장 가능한 경로를 제시함으로써, 일반화 가능하고 데이터 효율적인 수술 로봇 정책의 문을 엽니다.
English
Data scarcity remains a fundamental barrier to achieving fully autonomous surgical robots. While large scale vision language action (VLA) models have shown impressive generalization in household and industrial manipulation by leveraging paired video action data from diverse domains, surgical robotics suffers from the paucity of datasets that include both visual observations and accurate robot kinematics. In contrast, vast corpora of surgical videos exist, but they lack corresponding action labels, preventing direct application of imitation learning or VLA training. In this work, we aim to alleviate this problem by learning policy models from SurgWorld, a world model designed for surgical physical AI. We curated the Surgical Action Text Alignment (SATA) dataset with detailed action description specifically for surgical robots. Then we built SurgeWorld based on the most advanced physical AI world model and SATA. It's able to generate diverse, generalizable and realistic surgery videos. We are also the first to use an inverse dynamics model to infer pseudokinematics from synthetic surgical videos, producing synthetic paired video action data. We demonstrate that a surgical VLA policy trained with these augmented data significantly outperforms models trained only on real demonstrations on a real surgical robot platform. Our approach offers a scalable path toward autonomous surgical skill acquisition by leveraging the abundance of unlabeled surgical video and generative world modeling, thus opening the door to generalizable and data efficient surgical robot policies.
PDF72December 31, 2025