ScanBot: Rumo à Varredura Inteligente de Superfícies em Sistemas Robóticos Incorporados

Resumo

Apresentamos o ScanBot, um novo conjunto de dados projetado para varredura de superfície de alta precisão condicionada por instruções em sistemas robóticos. Em contraste com os conjuntos de dados existentes para aprendizado de robôs que se concentram em tarefas amplas, como preensão, navegação ou diálogo, o ScanBot visa atender às demandas de alta precisão da varredura a laser industrial, onde a continuidade do caminho em escala sub-milimétrica e a estabilidade dos parâmetros são críticas. O conjunto de dados abrange trajetórias de varredura a laser executadas por um robô em 12 objetos diversos e 6 tipos de tarefas, incluindo varreduras de superfície completa, regiões focadas em geometria, partes com referência espacial, estruturas funcionalmente relevantes, inspeção de defeitos e análise comparativa. Cada varredura é guiada por instruções em linguagem natural e acompanhada de perfis sincronizados de RGB, profundidade e laser, além da pose do robô e estados das juntas. Apesar dos avanços recentes, os modelos existentes de visão-linguagem-ação (VLA) ainda falham em gerar trajetórias de varredura estáveis sob instruções refinadas e demandas de precisão do mundo real. Para investigar essa limitação, avaliamos uma variedade de modelos de linguagem multimodal de grande escala (MLLMs) em todo o ciclo de percepção-planejamento-execução, revelando desafios persistentes no seguimento de instruções sob restrições realistas.

English

We introduce ScanBot, a novel dataset designed for instruction-conditioned, high-precision surface scanning in robotic systems. In contrast to existing robot learning datasets that focus on coarse tasks such as grasping, navigation, or dialogue, ScanBot targets the high-precision demands of industrial laser scanning, where sub-millimeter path continuity and parameter stability are critical. The dataset covers laser scanning trajectories executed by a robot across 12 diverse objects and 6 task types, including full-surface scans, geometry-focused regions, spatially referenced parts, functionally relevant structures, defect inspection, and comparative analysis. Each scan is guided by natural language instructions and paired with synchronized RGB, depth, and laser profiles, as well as robot pose and joint states. Despite recent progress, existing vision-language action (VLA) models still fail to generate stable scanning trajectories under fine-grained instructions and real-world precision demands. To investigate this limitation, we benchmark a range of multimodal large language models (MLLMs) across the full perception-planning-execution loop, revealing persistent challenges in instruction-following under realistic constraints.

ScanBot: Rumo à Varredura Inteligente de Superfícies em Sistemas Robóticos Incorporados

ScanBot: Towards Intelligent Surface Scanning in Embodied Robotic Systems

Resumo

Support