ScanBot: Rumo à Varredura Inteligente de Superfícies em Sistemas Robóticos Incorporados
ScanBot: Towards Intelligent Surface Scanning in Embodied Robotic Systems
May 22, 2025
Autores: Zhiling Chen, Yang Zhang, Fardin Jalil Piran, Qianyu Zhou, Jiong Tang, Farhad Imani
cs.AI
Resumo
Apresentamos o ScanBot, um novo conjunto de dados projetado para varredura de superfície de alta precisão condicionada por instruções em sistemas robóticos. Em contraste com os conjuntos de dados existentes para aprendizado de robôs que se concentram em tarefas amplas, como preensão, navegação ou diálogo, o ScanBot visa atender às demandas de alta precisão da varredura a laser industrial, onde a continuidade do caminho em escala sub-milimétrica e a estabilidade dos parâmetros são críticas. O conjunto de dados abrange trajetórias de varredura a laser executadas por um robô em 12 objetos diversos e 6 tipos de tarefas, incluindo varreduras de superfície completa, regiões focadas em geometria, partes com referência espacial, estruturas funcionalmente relevantes, inspeção de defeitos e análise comparativa. Cada varredura é guiada por instruções em linguagem natural e acompanhada de perfis sincronizados de RGB, profundidade e laser, além da pose do robô e estados das juntas. Apesar dos avanços recentes, os modelos existentes de visão-linguagem-ação (VLA) ainda falham em gerar trajetórias de varredura estáveis sob instruções refinadas e demandas de precisão do mundo real. Para investigar essa limitação, avaliamos uma variedade de modelos de linguagem multimodal de grande escala (MLLMs) em todo o ciclo de percepção-planejamento-execução, revelando desafios persistentes no seguimento de instruções sob restrições realistas.
English
We introduce ScanBot, a novel dataset designed for instruction-conditioned,
high-precision surface scanning in robotic systems. In contrast to existing
robot learning datasets that focus on coarse tasks such as grasping,
navigation, or dialogue, ScanBot targets the high-precision demands of
industrial laser scanning, where sub-millimeter path continuity and parameter
stability are critical. The dataset covers laser scanning trajectories executed
by a robot across 12 diverse objects and 6 task types, including full-surface
scans, geometry-focused regions, spatially referenced parts, functionally
relevant structures, defect inspection, and comparative analysis. Each scan is
guided by natural language instructions and paired with synchronized RGB,
depth, and laser profiles, as well as robot pose and joint states. Despite
recent progress, existing vision-language action (VLA) models still fail to
generate stable scanning trajectories under fine-grained instructions and
real-world precision demands. To investigate this limitation, we benchmark a
range of multimodal large language models (MLLMs) across the full
perception-planning-execution loop, revealing persistent challenges in
instruction-following under realistic constraints.