ChatPaper.aiChatPaper

Benchmarking und mechanistische Analyse von Vision-Language-Modellen für die abbildungsübergreifende Ausrichtung von Montageanleitungen

Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment

April 1, 2026
Autoren: Zhuchenyang Liu, Yao Zhang, Yu Xiao
cs.AI

Zusammenfassung

2D-Montageanleitungen sind oft abstrakt und schwer nachzuvollziehen, was einen Bedarf an intelligenten Assistenten schafft, die den Fortschritt überwachen, Fehler erkennen und schrittweise Anleitungen geben können. In Mixed-Reality-Umgebungen müssen solche Systeme abgeschlossene und laufende Schritte aus dem Kamerabild erkennen und mit den Diagrammanweisungen abgleichen. Vision-Language-Models (VLMs) sind für diese Aufgabe vielversprechend, stehen jedoch vor einem Darstellungsproblem, da Montagediagramme und Videobilder nur wenige visuelle Gemeinsamkeiten aufweisen. Um diese Lücke systematisch zu bewerten, erstellen wir IKEA-Bench, einen Benchmark mit 1.623 Fragen über 6 Aufgabentypen zu 29 IKEA-Möbelprodukten, und evaluieren 19 VLMs (2B–38B) unter drei Abgleichstrategien. Unsere Hauptergebnisse: (1) Das Verständnis von Montageanleitungen ist über Text rekonstruierbar, aber Text verschlechtert gleichzeitig den Diagramm-Video-Abgleich; (2) die Architekturfamilie sagt die Abgleichgenauigkeit stärker vorher als die Parameteranzahl; (3) das Videoverständnis bleibt ein hartes Nadelöhr, das von der Strategie unbeeinflusst ist. Eine dreistufige mechanistische Analyse zeigt weiter, dass Diagramme und Videos disjunkte ViT-Subräume einnehmen und das Hinzufügen von Text Modelle von visueller zu textgesteuerter Argumentation verschiebt. Diese Ergebnisse identifizieren die visuelle Encodierung als primäres Ziel zur Verbesserung der darstellungsübergreifenden Robustheit. Projektseite: https://ryenhails.github.io/IKEA-Bench/
English
2D assembly diagrams are often abstract and hard to follow, creating a need for intelligent assistants that can monitor progress, detect errors, and provide step-by-step guidance. In mixed reality settings, such systems must recognize completed and ongoing steps from the camera feed and align them with the diagram instructions. Vision Language Models (VLMs) show promise for this task, but face a depiction gap because assembly diagrams and video frames share few visual features. To systematically assess this gap, we construct IKEA-Bench, a benchmark of 1,623 questions across 6 task types on 29 IKEA furniture products, and evaluate 19 VLMs (2B-38B) under three alignment strategies. Our key findings: (1) assembly instruction understanding is recoverable via text, but text simultaneously degrades diagram-to-video alignment; (2) architecture family predicts alignment accuracy more strongly than parameter count; (3) video understanding remains a hard bottleneck unaffected by strategy. A three-level mechanistic analysis further reveals that diagrams and video occupy disjoint ViT subspaces, and that adding text shifts models from visual to text-driven reasoning. These results identify visual encoding as the primary target for improving cross-depiction robustness. Project page: https://ryenhails.github.io/IKEA-Bench/
PDF22April 3, 2026