ScanBot: В направлении интеллектуального сканирования поверхностей в воплощенных роботизированных системах
ScanBot: Towards Intelligent Surface Scanning in Embodied Robotic Systems
May 22, 2025
Авторы: Zhiling Chen, Yang Zhang, Fardin Jalil Piran, Qianyu Zhou, Jiong Tang, Farhad Imani
cs.AI
Аннотация
Мы представляем ScanBot — новый набор данных, предназначенный для высокоточного сканирования поверхностей в роботизированных системах с учетом инструкций. В отличие от существующих наборов данных для обучения роботов, которые сосредоточены на грубых задачах, таких как захват, навигация или диалог, ScanBot ориентирован на высокоточные требования промышленного лазерного сканирования, где критически важны непрерывность траектории на уровне субмиллиметров и стабильность параметров. Набор данных охватывает траектории лазерного сканирования, выполненные роботом на 12 различных объектах и 6 типах задач, включая полное сканирование поверхности, области с акцентом на геометрию, пространственно референцированные части, функционально значимые структуры, инспекцию дефектов и сравнительный анализ. Каждое сканирование сопровождается инструкциями на естественном языке и синхронизированными данными RGB, глубины и лазерных профилей, а также позицией робота и состоянием его сочленений. Несмотря на недавние достижения, существующие модели, объединяющие зрение, язык и действия (VLA), по-прежнему не способны генерировать стабильные траектории сканирования при детализированных инструкциях и требованиях реальной точности. Чтобы исследовать это ограничение, мы тестируем ряд мультимодальных больших языковых моделей (MLLM) на полном цикле восприятия-планирования-исполнения, выявляя устойчивые проблемы в следовании инструкциям в условиях реальных ограничений.
English
We introduce ScanBot, a novel dataset designed for instruction-conditioned,
high-precision surface scanning in robotic systems. In contrast to existing
robot learning datasets that focus on coarse tasks such as grasping,
navigation, or dialogue, ScanBot targets the high-precision demands of
industrial laser scanning, where sub-millimeter path continuity and parameter
stability are critical. The dataset covers laser scanning trajectories executed
by a robot across 12 diverse objects and 6 task types, including full-surface
scans, geometry-focused regions, spatially referenced parts, functionally
relevant structures, defect inspection, and comparative analysis. Each scan is
guided by natural language instructions and paired with synchronized RGB,
depth, and laser profiles, as well as robot pose and joint states. Despite
recent progress, existing vision-language action (VLA) models still fail to
generate stable scanning trajectories under fine-grained instructions and
real-world precision demands. To investigate this limitation, we benchmark a
range of multimodal large language models (MLLMs) across the full
perception-planning-execution loop, revealing persistent challenges in
instruction-following under realistic constraints.Summary
AI-Generated Summary