Evaluación Comparativa y Análisis Mecanicista de Modelos de Visión y Lenguaje para la Alineación de Instrucciones de Ensamblaje en Representaciones Visuales Diversas
Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment
April 1, 2026
Autores: Zhuchenyang Liu, Yao Zhang, Yu Xiao
cs.AI
Resumen
Los diagramas de ensamblaje en 2D suelen ser abstractos y difíciles de seguir, lo que crea la necesidad de asistentes inteligentes que puedan monitorear el progreso, detectar errores y proporcionar orientación paso a paso. En entornos de realidad mixta, dichos sistemas deben reconocer los pasos completados y en curso a partir de la transmisión de la cámara y alinearlos con las instrucciones del diagrama. Los Modelos de Lenguaje Visual (VLMs) muestran potencial para esta tarea, pero se enfrentan a una brecha de representación porque los diagramas de ensamblaje y los fotogramas de video comparten pocas características visuales. Para evaluar sistemáticamente esta brecha, construimos IKEA-Bench, un benchmark de 1.623 preguntas en 6 tipos de tareas sobre 29 productos de muebles IKEA, y evaluamos 19 VLMs (2B-38B) bajo tres estrategias de alineación. Nuestros hallazgos clave: (1) la comprensión de las instrucciones de ensamblaje es recuperable mediante texto, pero el texto simultáneamente degrada la alineación diagrama-a-video; (2) la familia arquitectónica predice la precisión de la alineación más fuertemente que el número de parámetros; (3) la comprensión del video sigue siendo un cuello de botella difícil no afectado por la estrategia. Un análisis mecanicista de tres niveles revela además que los diagramas y el video ocupan subespacios ViT disjuntos, y que añadir texto desplaza a los modelos del razonamiento visual al basado en texto. Estos resultados identifican la codificación visual como el objetivo principal para mejorar la robustez cruzada de representación. Página del proyecto: https://ryenhails.github.io/IKEA-Bench/
English
2D assembly diagrams are often abstract and hard to follow, creating a need for intelligent assistants that can monitor progress, detect errors, and provide step-by-step guidance. In mixed reality settings, such systems must recognize completed and ongoing steps from the camera feed and align them with the diagram instructions. Vision Language Models (VLMs) show promise for this task, but face a depiction gap because assembly diagrams and video frames share few visual features. To systematically assess this gap, we construct IKEA-Bench, a benchmark of 1,623 questions across 6 task types on 29 IKEA furniture products, and evaluate 19 VLMs (2B-38B) under three alignment strategies. Our key findings: (1) assembly instruction understanding is recoverable via text, but text simultaneously degrades diagram-to-video alignment; (2) architecture family predicts alignment accuracy more strongly than parameter count; (3) video understanding remains a hard bottleneck unaffected by strategy. A three-level mechanistic analysis further reveals that diagrams and video occupy disjoint ViT subspaces, and that adding text shifts models from visual to text-driven reasoning. These results identify visual encoding as the primary target for improving cross-depiction robustness. Project page: https://ryenhails.github.io/IKEA-Bench/