ChatPaper.aiChatPaper

ScanBot: Naar intelligente oppervlaktescanning in belichaamde robotsystemen

ScanBot: Towards Intelligent Surface Scanning in Embodied Robotic Systems

May 22, 2025
Auteurs: Zhiling Chen, Yang Zhang, Fardin Jalil Piran, Qianyu Zhou, Jiong Tang, Farhad Imani
cs.AI

Samenvatting

We introduceren ScanBot, een nieuwe dataset ontworpen voor instructie-gestuurde, hoogprecisie oppervlaktescanning in robotsystemen. In tegenstelling tot bestaande robotleerdatasets die zich richten op grove taken zoals grijpen, navigatie of dialoog, richt ScanBot zich op de hoogprecisie-eisen van industriële laserscanning, waarbij submillimeter padcontinuïteit en parameterstabiliteit cruciaal zijn. De dataset omvat laserscanningtrajecten uitgevoerd door een robot over 12 diverse objecten en 6 taaktypen, waaronder volledige oppervlaktescans, geometrie-gerichte regio's, ruimtelijk gerefereerde onderdelen, functioneel relevante structuren, defectinspectie en vergelijkende analyse. Elke scan wordt geleid door natuurlijke taal-instructies en gekoppeld aan gesynchroniseerde RGB-, diepte- en laserprofielen, evenals robotpose en gewrichtstoestanden. Ondanks recente vooruitgang slagen bestaande vision-language action (VLA)-modellen er nog steeds niet in om stabiele scantrajecten te genereren onder fijnmazige instructies en real-world precisie-eisen. Om deze beperking te onderzoeken, benchmarken we een reeks multimodale grote taalmodellen (MLLMs) over de volledige perceptie-planning-uitvoeringslus, wat aanhoudende uitdagingen in instructievolging onder realistische beperkingen aan het licht brengt.
English
We introduce ScanBot, a novel dataset designed for instruction-conditioned, high-precision surface scanning in robotic systems. In contrast to existing robot learning datasets that focus on coarse tasks such as grasping, navigation, or dialogue, ScanBot targets the high-precision demands of industrial laser scanning, where sub-millimeter path continuity and parameter stability are critical. The dataset covers laser scanning trajectories executed by a robot across 12 diverse objects and 6 task types, including full-surface scans, geometry-focused regions, spatially referenced parts, functionally relevant structures, defect inspection, and comparative analysis. Each scan is guided by natural language instructions and paired with synchronized RGB, depth, and laser profiles, as well as robot pose and joint states. Despite recent progress, existing vision-language action (VLA) models still fail to generate stable scanning trajectories under fine-grained instructions and real-world precision demands. To investigate this limitation, we benchmark a range of multimodal large language models (MLLMs) across the full perception-planning-execution loop, revealing persistent challenges in instruction-following under realistic constraints.
PDF92May 26, 2025