視覚言語モデルのベンチマーキングと機構分析:多様な描写における組立指示の整合性評価
Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment
April 1, 2026
著者: Zhuchenyang Liu, Yao Zhang, Yu Xiao
cs.AI
要旨
2D組立図は抽象的で分かりにくいことが多く、進捗状況の監視、誤りの検出、段階的な指示の提供ができるインテリジェントアシスタントの必要性が生じている。複合現実環境では、このようなシステムはカメラ映像から完了済みおよび進行中の工程を認識し、図面の指示と整合させなければならない。視覚言語モデル(VLM)はこの課題に有望だが、組立図とビデオフレームでは視覚的特徴がほとんど共有されないという描写ギャップに直面する。このギャップを体系的に評価するため、私たちはIKEA-Benchを構築した。これは29のIKEA家具製品を対象に、6つのタスクタイプにわたる1,623の質問からなるベンチマークであり、3つのアライメント戦略の下で19のVLM(2B-38B)を評価した。主な発見は以下の通り:(1)組立指示の理解はテキスト経由で回復可能だが、テキストは同時に図面とビデオのアライメントを劣化させる、(2)アーキテクチャファミリーはパラメータ数よりもアライメント精度を強く予測する、(3)ビデオ理解は戦略の影響を受けない困難なボトルネックとして残る。3段階のメカニズム分析により、図面とビデオがViTの互いに素な部分空間を占めており、テキストを追加するとモデルが視覚駆動型からテキスト駆動型の推論に移行することがさらに明らかになった。これらの結果は、異なる描写間の頑健性向上における主要な標的が視覚エンコーディングであることを示唆する。プロジェクトページ:https://ryenhails.github.io/IKEA-Bench/
English
2D assembly diagrams are often abstract and hard to follow, creating a need for intelligent assistants that can monitor progress, detect errors, and provide step-by-step guidance. In mixed reality settings, such systems must recognize completed and ongoing steps from the camera feed and align them with the diagram instructions. Vision Language Models (VLMs) show promise for this task, but face a depiction gap because assembly diagrams and video frames share few visual features. To systematically assess this gap, we construct IKEA-Bench, a benchmark of 1,623 questions across 6 task types on 29 IKEA furniture products, and evaluate 19 VLMs (2B-38B) under three alignment strategies. Our key findings: (1) assembly instruction understanding is recoverable via text, but text simultaneously degrades diagram-to-video alignment; (2) architecture family predicts alignment accuracy more strongly than parameter count; (3) video understanding remains a hard bottleneck unaffected by strategy. A three-level mechanistic analysis further reveals that diagrams and video occupy disjoint ViT subspaces, and that adding text shifts models from visual to text-driven reasoning. These results identify visual encoding as the primary target for improving cross-depiction robustness. Project page: https://ryenhails.github.io/IKEA-Bench/