ScanBot: Verso la Scansione Intelligente delle Superfici nei Sistemi Robotici Incorporati
ScanBot: Towards Intelligent Surface Scanning in Embodied Robotic Systems
May 22, 2025
Autori: Zhiling Chen, Yang Zhang, Fardin Jalil Piran, Qianyu Zhou, Jiong Tang, Farhad Imani
cs.AI
Abstract
Presentiamo ScanBot, un nuovo dataset progettato per la scansione di superfici ad alta precisione condizionata da istruzioni nei sistemi robotici. A differenza dei dataset esistenti per l'apprendimento robotico che si concentrano su compiti generici come la presa, la navigazione o il dialogo, ScanBot si rivolge alle esigenze di alta precisione della scansione laser industriale, dove la continuità del percorso sub-millimetrica e la stabilità dei parametri sono critiche. Il dataset copre traiettorie di scansione laser eseguite da un robot su 12 oggetti diversi e 6 tipi di compiti, tra cui scansioni complete della superficie, regioni focalizzate sulla geometria, parti con riferimento spaziale, strutture funzionalmente rilevanti, ispezione dei difetti e analisi comparativa. Ogni scansione è guidata da istruzioni in linguaggio naturale e associata a profili RGB, di profondità e laser sincronizzati, nonché alla posa del robot e agli stati delle giunzioni. Nonostante i recenti progressi, i modelli esistenti di visione-linguaggio-azione (VLA) non riescono ancora a generare traiettorie di scansione stabili sotto istruzioni dettagliate e richieste di precisione nel mondo reale. Per indagare questa limitazione, valutiamo una gamma di modelli linguistici multimodali di grandi dimensioni (MLLM) lungo l'intero ciclo percezione-pianificazione-esecuzione, rivelando persistenti sfide nel seguire le istruzioni sotto vincoli realistici.
English
We introduce ScanBot, a novel dataset designed for instruction-conditioned,
high-precision surface scanning in robotic systems. In contrast to existing
robot learning datasets that focus on coarse tasks such as grasping,
navigation, or dialogue, ScanBot targets the high-precision demands of
industrial laser scanning, where sub-millimeter path continuity and parameter
stability are critical. The dataset covers laser scanning trajectories executed
by a robot across 12 diverse objects and 6 task types, including full-surface
scans, geometry-focused regions, spatially referenced parts, functionally
relevant structures, defect inspection, and comparative analysis. Each scan is
guided by natural language instructions and paired with synchronized RGB,
depth, and laser profiles, as well as robot pose and joint states. Despite
recent progress, existing vision-language action (VLA) models still fail to
generate stable scanning trajectories under fine-grained instructions and
real-world precision demands. To investigate this limitation, we benchmark a
range of multimodal large language models (MLLMs) across the full
perception-planning-execution loop, revealing persistent challenges in
instruction-following under realistic constraints.