Benchmarking e Análise Mecanicista de Modelos de Visão e Linguagem para Alinhamento de Instruções de Montagem entre Diferentes Representações Visuais

Resumo

Os diagramas de montagem 2D são frequentemente abstratos e difíceis de seguir, criando a necessidade de assistentes inteligentes que possam monitorar o progresso, detectar erros e fornecer orientação passo a passo. Em ambientes de realidade mista, tais sistemas devem reconhecer etapas concluídas e em andamento a partir do fluxo da câmera e alinhá-las com as instruções do diagrama. Os Modelos de Linguagem Visual (VLMs) mostram potencial para essa tarefa, mas enfrentam uma lacuna de representação porque os diagramas de montagem e os quadros de vídeo compartilham poucas características visuais. Para avaliar sistematicamente essa lacuna, construímos o IKEA-Bench, um benchmark com 1.623 questões em 6 tipos de tarefas sobre 29 produtos de mobiliário IKEA, e avaliamos 19 VLMs (2B-38B) sob três estratégias de alinhamento. Nossas principais descobertas: (1) a compreensão das instruções de montagem é recuperável via texto, mas o texto simultaneamente degrada o alinhamento diagrama-vídeo; (2) a família arquitetônica prevê a precisão do alinhamento mais fortemente do que a contagem de parâmetros; (3) a compreensão de vídeo permanece um gargalo difícil não afetado pela estratégia. Uma análise mecanicista de três níveis revela ainda que diagramas e vídeo ocupam subespaços ViT disjuntos, e que adicionar texto desloca os modelos do raciocínio visual para o baseado em texto. Esses resultados identificam a codificação visual como o principal alvo para melhorar a robustez cruzada de representação. Página do projeto: https://ryenhails.github.io/IKEA-Bench/

English

2D assembly diagrams are often abstract and hard to follow, creating a need for intelligent assistants that can monitor progress, detect errors, and provide step-by-step guidance. In mixed reality settings, such systems must recognize completed and ongoing steps from the camera feed and align them with the diagram instructions. Vision Language Models (VLMs) show promise for this task, but face a depiction gap because assembly diagrams and video frames share few visual features. To systematically assess this gap, we construct IKEA-Bench, a benchmark of 1,623 questions across 6 task types on 29 IKEA furniture products, and evaluate 19 VLMs (2B-38B) under three alignment strategies. Our key findings: (1) assembly instruction understanding is recoverable via text, but text simultaneously degrades diagram-to-video alignment; (2) architecture family predicts alignment accuracy more strongly than parameter count; (3) video understanding remains a hard bottleneck unaffected by strategy. A three-level mechanistic analysis further reveals that diagrams and video occupy disjoint ViT subspaces, and that adding text shifts models from visual to text-driven reasoning. These results identify visual encoding as the primary target for improving cross-depiction robustness. Project page: https://ryenhails.github.io/IKEA-Bench/

Benchmarking e Análise Mecanicista de Modelos de Visão e Linguagem para Alinhamento de Instruções de Montagem entre Diferentes Representações Visuais

Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment

Resumo

Support