ScanBot: Auf dem Weg zur intelligenten Oberflächenabtastung in verkörperten Robotersystemen

papers.abstract

Wir stellen ScanBot vor, ein neuartiges Datenset, das für instruktionsgesteuertes, hochpräzises Oberflächenscannen in Robotersystemen entwickelt wurde. Im Gegensatz zu bestehenden Robotik-Lern-Datensets, die sich auf grobe Aufgaben wie Greifen, Navigation oder Dialog konzentrieren, zielt ScanBot auf die hochpräzisen Anforderungen des industriellen Laserscannings ab, bei denen submillimetergenaue Pfadkontinuität und Parameterstabilität entscheidend sind. Das Datenset umfasst Laserscanning-Trajektorien, die von einem Roboter an 12 verschiedenen Objekten und 6 Aufgabentypen ausgeführt wurden, darunter vollständige Oberflächenscans, geometriefokussierte Bereiche, räumlich referenzierte Teile, funktionell relevante Strukturen, Defektinspektion und vergleichende Analyse. Jeder Scan wird durch natürliche Sprachinstruktionen geleitet und ist mit synchronisierten RGB-, Tiefen- und Laserprofilen sowie Roboterpose und Gelenkzuständen verknüpft. Trotz jüngster Fortschritte scheitern bestehende Vision-Language-Action-Modelle (VLA) weiterhin daran, stabile Scan-Trajektorien unter feingranularen Instruktionen und realen Präzisionsanforderungen zu generieren. Um diese Einschränkung zu untersuchen, benchmarken wir eine Reihe von multimodalen Large Language Models (MLLMs) über den gesamten Wahrnehmungs-Planungs-Ausführungs-Zyklus hinweg, wodurch anhaltende Herausforderungen bei der Instruktionsbefolgung unter realistischen Einschränkungen aufgedeckt werden.

English

We introduce ScanBot, a novel dataset designed for instruction-conditioned, high-precision surface scanning in robotic systems. In contrast to existing robot learning datasets that focus on coarse tasks such as grasping, navigation, or dialogue, ScanBot targets the high-precision demands of industrial laser scanning, where sub-millimeter path continuity and parameter stability are critical. The dataset covers laser scanning trajectories executed by a robot across 12 diverse objects and 6 task types, including full-surface scans, geometry-focused regions, spatially referenced parts, functionally relevant structures, defect inspection, and comparative analysis. Each scan is guided by natural language instructions and paired with synchronized RGB, depth, and laser profiles, as well as robot pose and joint states. Despite recent progress, existing vision-language action (VLA) models still fail to generate stable scanning trajectories under fine-grained instructions and real-world precision demands. To investigate this limitation, we benchmark a range of multimodal large language models (MLLMs) across the full perception-planning-execution loop, revealing persistent challenges in instruction-following under realistic constraints.

ScanBot: Auf dem Weg zur intelligenten Oberflächenabtastung in verkörperten Robotersystemen

ScanBot: Towards Intelligent Surface Scanning in Embodied Robotic Systems

papers.abstract

Support