Pensar en Blender: gráficos inversos ejecutables por etapas con modelos de visión y lenguaje

Resumen

Los gráficos inversos constituyen un problema de larga data y altamente subcondicionado que busca reconstruir imágenes como escenas 3D editables, capaces de ser renderizadas, reiluminadas y manipuladas. En este trabajo, investigamos si los modelos de visión-lenguaje (VLMs) preentrenados pueden realizar gráficos inversos ejecutables directamente a partir de una sola imagen, reconstruyendo una escena como un programa editable de Blender, sin depender de modelos fundamentales 2D o 3D especializados, renderizado diferenciable ni supervisión multivista. Presentamos Gráficos Inversos Ejecutables por Etapas (SEIG), un marco agéntico que reconstruye una escena 3D a partir de una sola imagen mediante el refinamiento progresivo de factores de la escena —geometría, materiales, composición e iluminación— directamente en el espacio de código ejecutable de Blender. Evaluamos nuestro marco en diversas escenas utilizando un conjunto de métricas de reconstrucción que abarcan fidelidad a nivel de píxel, perceptual y semántica. Nuestros experimentos muestran que la reconstrucción por etapas mejora sustancialmente la fidelidad de la reconstrucción, lo que destaca la importancia de la descomposición de tareas para los gráficos inversos ejecutables con VLMs de propósito general. Finalmente, presentamos diversas aplicaciones posteriores habilitadas por las escenas editables de Blender reconstruidas.

English

Inverse graphics is a longstanding and highly underconstrained problem that seeks to reconstruct images as editable 3D scenes which can be rendered, relit, and manipulated. In this work, we investigate whether pretrained vision-language models (VLMs) can perform executable inverse graphics directly from a single image by reconstructing a scene as an editable Blender program, without relying on specialized 2D or 3D foundation models, differentiable rendering, or multi-view supervision. We introduce Staged Executable Inverse Graphics (SEIG), an agentic framework that reconstructs a 3D scene from a single image by progressively refining scene factors including geometry, materials, composition, and lighting directly in executable Blender code space. We evaluate our framework across diverse scenes using a range of reconstruction metrics spanning pixel-level, perceptual, and semantic fidelity. Our experiments show that staged reconstruction substantially improves reconstruction fidelity, highlighting the importance of task decomposition for executable inverse graphics with general-purpose VLMs. Finally, we showcase various downstream applications enabled by the reconstructed editable Blender scenes.