비전-언어 모델의 다양한 묘사 방식 간 조립 지침 정렬 성능 평가 및 메커니즘 분석
Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment
April 1, 2026
저자: Zhuchenyang Liu, Yao Zhang, Yu Xiao
cs.AI
초록
2D 조립 도해는 종종 추상적이고 이해하기 어려워, 진행 상황을 모니터링하고 오류를 감지하며 단계별 지침을 제공할 수 있는 지능형 보조 시스템의 필요성이 대두되고 있습니다. 혼합 현실 환경에서 이러한 시스템은 카메라 피드에서 완료된 단계와 진행 중인 단계를 인식하고 도해의 지침과 연동해야 합니다. 비전 언어 모델(VLM)은 이러한 과제에 유망하지만, 조립 도해와 비디오 프레임이 시각적 특징을 거의 공유하지 않아 묘사 격차 문제에 직면합니다. 이 격차를 체계적으로 평가하기 위해 우리는 29종의 IKEA 가구 제품을 대상으로 6가지 작업 유형에 걸친 1,623개의 질문으로 구성된 벤치마크 IKEA-Bench를 구축하고, 세 가지 정렬 전략 하에서 19개의 VLM(2B-38B)을 평가했습니다. 주요 결과는 다음과 같습니다: (1) 조립 설명서 이해는 텍스트를 통해 복구 가능하지만, 동시에 텍스트는 도해-비디오 정렬을 저해함; (2) 매개변수 수보다 아키텍처 패밀리가 정렬 정확도를 더 강력하게 예측함; (3) 비디오 이해는 전략에 관계없이 여전히 해결하기 어려운 병목 현상임. 세 단계의 메커니즘 분석을 통해 추가적으로 도해와 비디오가 서로 겹치지 않는 ViT 부분 공간을 점유하며, 텍스트 추가가 모델의 시각 기반 추론을 텍스트 주도 추론으로 전환시킨다는 사실을 발견했습니다. 이러한 결과는 교차 묘사 강건성 향상을 위한 주요 목표가 시각 인코딩임을 시사합니다. 프로젝트 페이지: https://ryenhails.github.io/IKEA-Bench/
English
2D assembly diagrams are often abstract and hard to follow, creating a need for intelligent assistants that can monitor progress, detect errors, and provide step-by-step guidance. In mixed reality settings, such systems must recognize completed and ongoing steps from the camera feed and align them with the diagram instructions. Vision Language Models (VLMs) show promise for this task, but face a depiction gap because assembly diagrams and video frames share few visual features. To systematically assess this gap, we construct IKEA-Bench, a benchmark of 1,623 questions across 6 task types on 29 IKEA furniture products, and evaluate 19 VLMs (2B-38B) under three alignment strategies. Our key findings: (1) assembly instruction understanding is recoverable via text, but text simultaneously degrades diagram-to-video alignment; (2) architecture family predicts alignment accuracy more strongly than parameter count; (3) video understanding remains a hard bottleneck unaffected by strategy. A three-level mechanistic analysis further reveals that diagrams and video occupy disjoint ViT subspaces, and that adding text shifts models from visual to text-driven reasoning. These results identify visual encoding as the primary target for improving cross-depiction robustness. Project page: https://ryenhails.github.io/IKEA-Bench/