ScanBot: Auf dem Weg zur intelligenten Oberflächenabtastung in verkörperten Robotersystemen
ScanBot: Towards Intelligent Surface Scanning in Embodied Robotic Systems
May 22, 2025
Autoren: Zhiling Chen, Yang Zhang, Fardin Jalil Piran, Qianyu Zhou, Jiong Tang, Farhad Imani
cs.AI
Zusammenfassung
Wir stellen ScanBot vor, ein neuartiges Datenset, das für instruktionsgesteuertes, hochpräzises Oberflächenscannen in Robotersystemen entwickelt wurde. Im Gegensatz zu bestehenden Robotik-Lern-Datensets, die sich auf grobe Aufgaben wie Greifen, Navigation oder Dialog konzentrieren, zielt ScanBot auf die hochpräzisen Anforderungen des industriellen Laserscannings ab, bei denen submillimetergenaue Pfadkontinuität und Parameterstabilität entscheidend sind. Das Datenset umfasst Laserscanning-Trajektorien, die von einem Roboter an 12 verschiedenen Objekten und 6 Aufgabentypen ausgeführt wurden, darunter vollständige Oberflächenscans, geometriefokussierte Bereiche, räumlich referenzierte Teile, funktionell relevante Strukturen, Defektinspektion und vergleichende Analyse. Jeder Scan wird durch natürliche Sprachinstruktionen geleitet und ist mit synchronisierten RGB-, Tiefen- und Laserprofilen sowie Roboterpose und Gelenkzuständen verknüpft. Trotz jüngster Fortschritte scheitern bestehende Vision-Language-Action-Modelle (VLA) weiterhin daran, stabile Scan-Trajektorien unter feingranularen Instruktionen und realen Präzisionsanforderungen zu generieren. Um diese Einschränkung zu untersuchen, benchmarken wir eine Reihe von multimodalen Large Language Models (MLLMs) über den gesamten Wahrnehmungs-Planungs-Ausführungs-Zyklus hinweg, wodurch anhaltende Herausforderungen bei der Instruktionsbefolgung unter realistischen Einschränkungen aufgedeckt werden.
English
We introduce ScanBot, a novel dataset designed for instruction-conditioned,
high-precision surface scanning in robotic systems. In contrast to existing
robot learning datasets that focus on coarse tasks such as grasping,
navigation, or dialogue, ScanBot targets the high-precision demands of
industrial laser scanning, where sub-millimeter path continuity and parameter
stability are critical. The dataset covers laser scanning trajectories executed
by a robot across 12 diverse objects and 6 task types, including full-surface
scans, geometry-focused regions, spatially referenced parts, functionally
relevant structures, defect inspection, and comparative analysis. Each scan is
guided by natural language instructions and paired with synchronized RGB,
depth, and laser profiles, as well as robot pose and joint states. Despite
recent progress, existing vision-language action (VLA) models still fail to
generate stable scanning trajectories under fine-grained instructions and
real-world precision demands. To investigate this limitation, we benchmark a
range of multimodal large language models (MLLMs) across the full
perception-planning-execution loop, revealing persistent challenges in
instruction-following under realistic constraints.Summary
AI-Generated Summary