ScanBot: 실체화된 로봇 시스템에서의 지능적 표면 스캐닝 기술
ScanBot: Towards Intelligent Surface Scanning in Embodied Robotic Systems
May 22, 2025
저자: Zhiling Chen, Yang Zhang, Fardin Jalil Piran, Qianyu Zhou, Jiong Tang, Farhad Imani
cs.AI
초록
우리는 로봇 시스템에서 명령어 기반의 고정밀 표면 스캐닝을 위해 설계된 새로운 데이터셋인 ScanBot을 소개한다. 기존의 로봇 학습 데이터셋이 파지, 탐색, 대화 등과 같은 거친 작업에 초점을 맞추는 반면, ScanBot은 산업용 레이저 스캐닝의 고정밀 요구사항을 목표로 하며, 이는 밀리미터 단위의 경로 연속성과 매개변수 안정성이 중요한 분야이다. 이 데이터셋은 로봇이 실행한 레이저 스캐닝 궤적을 포함하며, 12가지 다양한 객체와 6가지 작업 유형(전체 표면 스캔, 기하학적 초점 영역, 공간적으로 참조된 부품, 기능적으로 관련된 구조, 결함 검사, 비교 분석)을 다룬다. 각 스캔은 자연어 명령어로 안내되며, 동기화된 RGB, 깊이, 레이저 프로파일과 로봇 포즈 및 관절 상태가 함께 제공된다. 최근의 진전에도 불구하고, 기존의 시각-언어 행동(VLA) 모델들은 세분화된 명령어와 실제 세계의 정밀도 요구사항 하에서 안정적인 스캐닝 궤적을 생성하는 데 여전히 실패한다. 이러한 한계를 조사하기 위해, 우리는 다중모달 대형 언어 모델(MLLM)을 전체 인지-계획-실행 루프에 걸쳐 벤치마킹하였으며, 현실적인 제약 하에서 명령어 수행에 지속적인 도전 과제가 있음을 밝혀냈다.
English
We introduce ScanBot, a novel dataset designed for instruction-conditioned,
high-precision surface scanning in robotic systems. In contrast to existing
robot learning datasets that focus on coarse tasks such as grasping,
navigation, or dialogue, ScanBot targets the high-precision demands of
industrial laser scanning, where sub-millimeter path continuity and parameter
stability are critical. The dataset covers laser scanning trajectories executed
by a robot across 12 diverse objects and 6 task types, including full-surface
scans, geometry-focused regions, spatially referenced parts, functionally
relevant structures, defect inspection, and comparative analysis. Each scan is
guided by natural language instructions and paired with synchronized RGB,
depth, and laser profiles, as well as robot pose and joint states. Despite
recent progress, existing vision-language action (VLA) models still fail to
generate stable scanning trajectories under fine-grained instructions and
real-world precision demands. To investigate this limitation, we benchmark a
range of multimodal large language models (MLLMs) across the full
perception-planning-execution loop, revealing persistent challenges in
instruction-following under realistic constraints.Summary
AI-Generated Summary