Pensando no Blender: Gráficos Inversos Executáveis em Etapas com Modelos de Visão e Linguagem

Resumo

Gráficos inversos é um problema antigo e altamente subdeterminado que busca reconstruir imagens como cenas 3D editáveis que possam ser renderizadas, reiluminadas e manipuladas. Neste trabalho, investigamos se modelos de visão-linguagem (VLMs) pré-treinados podem realizar gráficos inversos executáveis diretamente a partir de uma única imagem, reconstruindo uma cena como um programa Blender editável, sem depender de modelos fundamentais 2D ou 3D especializados, renderização diferenciável ou supervisão multivista. Apresentamos o Staged Executable Inverse Graphics (SEIG), uma estrutura agentiva que reconstrói uma cena 3D a partir de uma única imagem, refinando progressivamente os fatores da cena — incluindo geometria, materiais, composição e iluminação — diretamente no espaço de código executável do Blender. Avaliamos nossa estrutura em diversas cenas usando uma variedade de métricas de reconstrução que abrangem fidelidade em nível de pixel, perceptiva e semântica. Nossos experimentos mostram que a reconstrução em etapas melhora substancialmente a fidelidade da reconstrução, destacando a importância da decomposição de tarefas para gráficos inversos executáveis com VLMs de propósito geral. Por fim, demonstramos várias aplicações downstream possibilitadas pelas cenas Blender editáveis reconstruídas.

English

Inverse graphics is a longstanding and highly underconstrained problem that seeks to reconstruct images as editable 3D scenes which can be rendered, relit, and manipulated. In this work, we investigate whether pretrained vision-language models (VLMs) can perform executable inverse graphics directly from a single image by reconstructing a scene as an editable Blender program, without relying on specialized 2D or 3D foundation models, differentiable rendering, or multi-view supervision. We introduce Staged Executable Inverse Graphics (SEIG), an agentic framework that reconstructs a 3D scene from a single image by progressively refining scene factors including geometry, materials, composition, and lighting directly in executable Blender code space. We evaluate our framework across diverse scenes using a range of reconstruction metrics spanning pixel-level, perceptual, and semantic fidelity. Our experiments show that staged reconstruction substantially improves reconstruction fidelity, highlighting the importance of task decomposition for executable inverse graphics with general-purpose VLMs. Finally, we showcase various downstream applications enabled by the reconstructed editable Blender scenes.