Évaluation comparative et analyse mécanistique des modèles vision-langage pour l'alignement d'instructions d'assemblage en contexte de représentations multiples
Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment
April 1, 2026
Auteurs: Zhuchenyang Liu, Yao Zhang, Yu Xiao
cs.AI
Résumé
Les schémas d'assemblage 2D sont souvent abstraits et difficiles à suivre, créant un besoin d'assistants intelligents capables de surveiller la progression, détecter les erreurs et fournir des instructions étape par étape. Dans les environnements de réalité mixte, ces systèmes doivent reconnaître les étapes terminées et en cours à partir du flux vidéo et les aligner avec les instructions du schéma. Les modèles de vision et langage (VLM) montrent des résultats prometteurs pour cette tâche, mais se heurtent à un écart de représentation car les schémas d'assemblage et les images vidéo partagent peu de caractéristiques visuelles. Pour évaluer systématiquement cet écart, nous construisons IKEA-Bench, un benchmark de 1 623 questions couvrant 6 types de tâches sur 29 produits de mobilier IKEA, et évaluons 19 VLM (2B-38B) sous trois stratégies d'alignement. Nos principales conclusions : (1) la compréhension des instructions d'assemblage est récupérable via le texte, mais le texte dégrade simultanément l'alignement schéma-vidéo ; (2) la famille architecturale prédit la précision d'alignement plus fortement que le nombre de paramètres ; (3) la compréhension vidéo reste un goulot d'étranglement difficile, non affecté par la stratégie. Une analyse mécanistique à trois niveaux révèle en outre que les schémas et la vidéo occupent des sous-espaces ViT disjoints, et que l'ajout de texte fait basculer les modèles d'un raisonnement visuel vers un raisonnement piloté par le texte. Ces résultats identifient l'encodage visuel comme la cible principale pour améliorer la robustesse inter-représentations. Page du projet : https://ryenhails.github.io/IKEA-Bench/
English
2D assembly diagrams are often abstract and hard to follow, creating a need for intelligent assistants that can monitor progress, detect errors, and provide step-by-step guidance. In mixed reality settings, such systems must recognize completed and ongoing steps from the camera feed and align them with the diagram instructions. Vision Language Models (VLMs) show promise for this task, but face a depiction gap because assembly diagrams and video frames share few visual features. To systematically assess this gap, we construct IKEA-Bench, a benchmark of 1,623 questions across 6 task types on 29 IKEA furniture products, and evaluate 19 VLMs (2B-38B) under three alignment strategies. Our key findings: (1) assembly instruction understanding is recoverable via text, but text simultaneously degrades diagram-to-video alignment; (2) architecture family predicts alignment accuracy more strongly than parameter count; (3) video understanding remains a hard bottleneck unaffected by strategy. A three-level mechanistic analysis further reveals that diagrams and video occupy disjoint ViT subspaces, and that adding text shifts models from visual to text-driven reasoning. These results identify visual encoding as the primary target for improving cross-depiction robustness. Project page: https://ryenhails.github.io/IKEA-Bench/