ScanBot: Naar intelligente oppervlaktescanning in belichaamde robotsystemen
ScanBot: Towards Intelligent Surface Scanning in Embodied Robotic Systems
May 22, 2025
Auteurs: Zhiling Chen, Yang Zhang, Fardin Jalil Piran, Qianyu Zhou, Jiong Tang, Farhad Imani
cs.AI
Samenvatting
We introduceren ScanBot, een nieuwe dataset ontworpen voor instructie-gestuurde, hoogprecisie oppervlaktescanning in robotsystemen. In tegenstelling tot bestaande robotleerdatasets die zich richten op grove taken zoals grijpen, navigatie of dialoog, richt ScanBot zich op de hoogprecisie-eisen van industriële laserscanning, waarbij submillimeter padcontinuïteit en parameterstabiliteit cruciaal zijn. De dataset omvat laserscanningtrajecten uitgevoerd door een robot over 12 diverse objecten en 6 taaktypen, waaronder volledige oppervlaktescans, geometrie-gerichte regio's, ruimtelijk gerefereerde onderdelen, functioneel relevante structuren, defectinspectie en vergelijkende analyse. Elke scan wordt geleid door natuurlijke taal-instructies en gekoppeld aan gesynchroniseerde RGB-, diepte- en laserprofielen, evenals robotpose en gewrichtstoestanden. Ondanks recente vooruitgang slagen bestaande vision-language action (VLA)-modellen er nog steeds niet in om stabiele scantrajecten te genereren onder fijnmazige instructies en real-world precisie-eisen. Om deze beperking te onderzoeken, benchmarken we een reeks multimodale grote taalmodellen (MLLMs) over de volledige perceptie-planning-uitvoeringslus, wat aanhoudende uitdagingen in instructievolging onder realistische beperkingen aan het licht brengt.
English
We introduce ScanBot, a novel dataset designed for instruction-conditioned,
high-precision surface scanning in robotic systems. In contrast to existing
robot learning datasets that focus on coarse tasks such as grasping,
navigation, or dialogue, ScanBot targets the high-precision demands of
industrial laser scanning, where sub-millimeter path continuity and parameter
stability are critical. The dataset covers laser scanning trajectories executed
by a robot across 12 diverse objects and 6 task types, including full-surface
scans, geometry-focused regions, spatially referenced parts, functionally
relevant structures, defect inspection, and comparative analysis. Each scan is
guided by natural language instructions and paired with synchronized RGB,
depth, and laser profiles, as well as robot pose and joint states. Despite
recent progress, existing vision-language action (VLA) models still fail to
generate stable scanning trajectories under fine-grained instructions and
real-world precision demands. To investigate this limitation, we benchmark a
range of multimodal large language models (MLLMs) across the full
perception-planning-execution loop, revealing persistent challenges in
instruction-following under realistic constraints.