Сравнительный анализ и исследование механизмов моделей «визуальный язык» для согласования инструкций по сборке в условиях кросс-изобразительных вариаций

Аннотация

Двумерные схемы сборки часто являются абстрактными и сложными для восприятия, что создает потребность в интеллектуальных ассистентах, способных отслеживать прогресс, выявлять ошибки и предоставлять пошаговые инструкции. В условиях смешанной реальности такие системы должны распознавать завершенные и текущие этапы сборки по видеопотоку с камеры и соотносить их с инструкциями на схеме. Модели "Vision-Language" (VLM) демонстрируют потенциал для решения этой задачи, но сталкиваются с проблемой "разрыва изображений", поскольку схемы сборки и видеокадры имеют мало общих визуальных признаков. Для системной оценки этого разрыва мы создали IKEA-Bench — набор из 1623 вопросов по 6 типам задач для 29 продуктов мебели IKEA — и протестировали 19 VLM-моделей (2B-38B параметров) с тремя стратегиями согласования. Ключевые выводы: (1) понимание инструкций сборки может быть восстановлено через текст, но текст одновременно ухудшает согласование схемы с видео; (2) архитектурное семейство моделей предсказывает точность согласования сильнее, чем количество параметров; (3) понимание видео остается жестким узким местом, не зависящим от стратегии. Трехуровневый механистический анализ дополнительно показывает, что схемы и видео занимают непересекающиеся подпространства ViT, а добавление текста смещает модели от визуального к текстовому анализу. Эти результаты определяют визуальное кодирование как основную цель для повышения устойчивости к кросс-изобразительным разрывам. Страница проекта: https://ryenhails.github.io/IKEA-Bench/

English

2D assembly diagrams are often abstract and hard to follow, creating a need for intelligent assistants that can monitor progress, detect errors, and provide step-by-step guidance. In mixed reality settings, such systems must recognize completed and ongoing steps from the camera feed and align them with the diagram instructions. Vision Language Models (VLMs) show promise for this task, but face a depiction gap because assembly diagrams and video frames share few visual features. To systematically assess this gap, we construct IKEA-Bench, a benchmark of 1,623 questions across 6 task types on 29 IKEA furniture products, and evaluate 19 VLMs (2B-38B) under three alignment strategies. Our key findings: (1) assembly instruction understanding is recoverable via text, but text simultaneously degrades diagram-to-video alignment; (2) architecture family predicts alignment accuracy more strongly than parameter count; (3) video understanding remains a hard bottleneck unaffected by strategy. A three-level mechanistic analysis further reveals that diagrams and video occupy disjoint ViT subspaces, and that adding text shifts models from visual to text-driven reasoning. These results identify visual encoding as the primary target for improving cross-depiction robustness. Project page: https://ryenhails.github.io/IKEA-Bench/

Сравнительный анализ и исследование механизмов моделей «визуальный язык» для согласования инструкций по сборке в условиях кросс-изобразительных вариаций

Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment

Аннотация

Support