ChatPaper.aiChatPaper

Analisi Comparativa e Meccanismi dei Modelli Visione-Linguaggio per l'Allineamento Istruzionale nell'Assemblaggio Multirappresentazionale

Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment

April 1, 2026
Autori: Zhuchenyang Liu, Yao Zhang, Yu Xiao
cs.AI

Abstract

I diagrammi di assemblaggio 2D sono spesso astratti e difficili da seguire, creando la necessità di assistenti intelligenti in grado di monitorare i progressi, rilevare errori e fornire una guida passo-passo. In ambienti di realtà mista, tali sistemi devono riconoscere i passaggi completati e quelli in corso dal flusso video e allinearli con le istruzioni del diagramma. I Vision Language Models (VLM) mostrano potenziale per questo compito, ma affrontano un divario di rappresentazione perché i diagrammi di assemblaggio e i fotogrammi video condividono pochissime caratteristiche visive. Per valutare sistematicamente questo divario, costruiamo IKEA-Bench, un benchmark di 1.623 domande su 6 tipi di attività relative a 29 prodotti di arredamento IKEA, e valutiamo 19 VLM (2B-38B) sotto tre strategie di allineamento. Le nostre principali scoperte: (1) la comprensione delle istruzioni di assemblaggio è recuperabile tramite testo, ma il testo degrada simultaneamente l'allineamento diagramma-video; (2) la famiglia architetturale predice l'accuratezza dell'allineamento più fortemente del numero di parametri; (3) la comprensione video rimane un collo di bottiglia difficile non influenzato dalla strategia. Un'analisi meccanicistica a tre livelli rivela inoltre che i diagrammi e il video occupano sottospazi ViT disgiunti, e che l'aggiunta di testo sposta i modelli dal ragionamento visivo a quello guidato dal testo. Questi risultati identificano la codifica visiva come l'obiettivo primario per migliorare la robustezza cross-depiction. Pagina del progetto: https://ryenhails.github.io/IKEA-Bench/
English
2D assembly diagrams are often abstract and hard to follow, creating a need for intelligent assistants that can monitor progress, detect errors, and provide step-by-step guidance. In mixed reality settings, such systems must recognize completed and ongoing steps from the camera feed and align them with the diagram instructions. Vision Language Models (VLMs) show promise for this task, but face a depiction gap because assembly diagrams and video frames share few visual features. To systematically assess this gap, we construct IKEA-Bench, a benchmark of 1,623 questions across 6 task types on 29 IKEA furniture products, and evaluate 19 VLMs (2B-38B) under three alignment strategies. Our key findings: (1) assembly instruction understanding is recoverable via text, but text simultaneously degrades diagram-to-video alignment; (2) architecture family predicts alignment accuracy more strongly than parameter count; (3) video understanding remains a hard bottleneck unaffected by strategy. A three-level mechanistic analysis further reveals that diagrams and video occupy disjoint ViT subspaces, and that adding text shifts models from visual to text-driven reasoning. These results identify visual encoding as the primary target for improving cross-depiction robustness. Project page: https://ryenhails.github.io/IKEA-Bench/
PDF22April 3, 2026