ChatPaper.aiChatPaper

ScanBot: Hacia el Escaneo Inteligente de Superficies en Sistemas Robóticos Corporizados

ScanBot: Towards Intelligent Surface Scanning in Embodied Robotic Systems

May 22, 2025
Autores: Zhiling Chen, Yang Zhang, Fardin Jalil Piran, Qianyu Zhou, Jiong Tang, Farhad Imani
cs.AI

Resumen

Presentamos ScanBot, un nuevo conjunto de datos diseñado para el escaneo de superficies de alta precisión condicionado por instrucciones en sistemas robóticos. A diferencia de los conjuntos de datos existentes para el aprendizaje robótico, que se centran en tareas generales como la manipulación, la navegación o el diálogo, ScanBot aborda las demandas de alta precisión del escaneo láser industrial, donde la continuidad de la trayectoria a nivel submilimétrico y la estabilidad de los parámetros son críticas. El conjunto de datos abarca trayectorias de escaneo láser ejecutadas por un robot en 12 objetos diversos y 6 tipos de tareas, incluyendo escaneos de superficie completa, regiones enfocadas en la geometría, partes referenciadas espacialmente, estructuras funcionalmente relevantes, inspección de defectos y análisis comparativo. Cada escaneo está guiado por instrucciones en lenguaje natural y se acompaña de datos sincronizados de RGB, profundidad y perfiles láser, así como de la pose del robot y los estados de las articulaciones. A pesar de los avances recientes, los modelos existentes de visión-lenguaje-acción (VLA) aún no logran generar trayectorias de escaneo estables bajo instrucciones detalladas y las demandas de precisión del mundo real. Para investigar esta limitación, evaluamos una variedad de modelos de lenguaje multimodal de gran escala (MLLM) en todo el ciclo de percepción-planificación-ejecución, revelando desafíos persistentes en el seguimiento de instrucciones bajo restricciones realistas.
English
We introduce ScanBot, a novel dataset designed for instruction-conditioned, high-precision surface scanning in robotic systems. In contrast to existing robot learning datasets that focus on coarse tasks such as grasping, navigation, or dialogue, ScanBot targets the high-precision demands of industrial laser scanning, where sub-millimeter path continuity and parameter stability are critical. The dataset covers laser scanning trajectories executed by a robot across 12 diverse objects and 6 task types, including full-surface scans, geometry-focused regions, spatially referenced parts, functionally relevant structures, defect inspection, and comparative analysis. Each scan is guided by natural language instructions and paired with synchronized RGB, depth, and laser profiles, as well as robot pose and joint states. Despite recent progress, existing vision-language action (VLA) models still fail to generate stable scanning trajectories under fine-grained instructions and real-world precision demands. To investigate this limitation, we benchmark a range of multimodal large language models (MLLMs) across the full perception-planning-execution loop, revealing persistent challenges in instruction-following under realistic constraints.

Summary

AI-Generated Summary

PDF92May 26, 2025