Benchmarking en mechanistische analyse van vision-language-modellen voor cross-depiction-uitlijning van montage-instructies

Samenvatting

2D-montagediagrammen zijn vaak abstract en moeilijk te volgen, wat de behoefte creëert aan intelligente assistenten die de voortgang kunnen monitoren, fouten kunnen detecteren en stapsgewijze begeleiding kunnen bieden. In mixed reality-omgevingen moeten dergelijke systemen voltooide en lopende stappen uit de camerabeelden herkennen en afstemmen op de instructies in het diagram. Vision Language Models (VLMs) tonen potentieel voor deze taak, maar kampen met een afbeeldingskloof omdat montagediagrammen en videobeelden weinig visuele kenmerken delen. Om deze kloof systematisch te beoordelen, construeren we IKEA-Bench, een benchmark met 1.623 vragen verdeeld over 6 taaktypen voor 29 IKEA-meubelproducten, en evalueren we 19 VLMs (2B-38B) onder drie afstemmingsstrategieën. Onze belangrijkste bevindingen: (1) begrip van montage-instructies is herstelbaar via tekst, maar tekst verslechtert tegelijkertijd de diagram-naar-video-afstemming; (2) de architectuurfamilie voorspelt de afstemmingsnauwkeurigheid sterker dan het aantal parameters; (3) videobegrip blijft een hard knelpunt dat ongevoelig is voor de strategie. Een mechanistische analyse op drie niveaus toont verder aan dat diagrammen en video zich in gescheiden ViT-deelruimtes bevinden, en dat het toevoegen van tekst modellen verschuift van visueel naar tekstgedreven redeneren. Deze resultaten identificeren visuele codering als het primaire doel voor het verbeteren van robuustheid bij kruisende afbeeldingen. Projectpagina: https://ryenhails.github.io/IKEA-Bench/

English

2D assembly diagrams are often abstract and hard to follow, creating a need for intelligent assistants that can monitor progress, detect errors, and provide step-by-step guidance. In mixed reality settings, such systems must recognize completed and ongoing steps from the camera feed and align them with the diagram instructions. Vision Language Models (VLMs) show promise for this task, but face a depiction gap because assembly diagrams and video frames share few visual features. To systematically assess this gap, we construct IKEA-Bench, a benchmark of 1,623 questions across 6 task types on 29 IKEA furniture products, and evaluate 19 VLMs (2B-38B) under three alignment strategies. Our key findings: (1) assembly instruction understanding is recoverable via text, but text simultaneously degrades diagram-to-video alignment; (2) architecture family predicts alignment accuracy more strongly than parameter count; (3) video understanding remains a hard bottleneck unaffected by strategy. A three-level mechanistic analysis further reveals that diagrams and video occupy disjoint ViT subspaces, and that adding text shifts models from visual to text-driven reasoning. These results identify visual encoding as the primary target for improving cross-depiction robustness. Project page: https://ryenhails.github.io/IKEA-Bench/

Benchmarking en mechanistische analyse van vision-language-modellen voor cross-depiction-uitlijning van montage-instructies

Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment

Samenvatting

Support