Penser dans Blender : Graphisme inverse exécutable par étapes avec des modèles vision-langage

Résumé

Le graphisme inverse est un problème ancien et fortement sous-contraint qui vise à reconstruire des images sous forme de scènes 3D modifiables, pouvant être rendues, rééclairées et manipulées. Dans ce travail, nous étudions si des modèles vision-langage préentraînés (VLM) peuvent effectuer du graphisme inverse exécutable directement à partir d'une seule image en reconstruisant une scène sous forme de programme Blender modifiable, sans recourir à des modèles de base spécialisés en 2D ou 3D, au rendu différentiable ou à une supervision multi-vue. Nous introduisons le Graphisme Inverse Exécutable par Étapes (SEIG), un cadre agentique qui reconstruit une scène 3D à partir d'une image unique en affinant progressivement les facteurs de scène — géométrie, matériaux, composition et éclairage — directement dans l'espace de code Blender exécutable. Nous évaluons notre cadre sur diverses scènes à l'aide d'un ensemble de métriques de reconstruction couvrant la fidélité au niveau des pixels, la perception et la sémantique. Nos expériences montrent que la reconstruction par étapes améliore considérablement la fidélité de la reconstruction, soulignant l'importance de la décomposition des tâches pour le graphisme inverse exécutable avec des VLM à usage général. Enfin, nous présentons diverses applications en aval rendues possibles par les scènes Blender modifiables reconstruites.

English

Inverse graphics is a longstanding and highly underconstrained problem that seeks to reconstruct images as editable 3D scenes which can be rendered, relit, and manipulated. In this work, we investigate whether pretrained vision-language models (VLMs) can perform executable inverse graphics directly from a single image by reconstructing a scene as an editable Blender program, without relying on specialized 2D or 3D foundation models, differentiable rendering, or multi-view supervision. We introduce Staged Executable Inverse Graphics (SEIG), an agentic framework that reconstructs a 3D scene from a single image by progressively refining scene factors including geometry, materials, composition, and lighting directly in executable Blender code space. We evaluate our framework across diverse scenes using a range of reconstruction metrics spanning pixel-level, perceptual, and semantic fidelity. Our experiments show that staged reconstruction substantially improves reconstruction fidelity, highlighting the importance of task decomposition for executable inverse graphics with general-purpose VLMs. Finally, we showcase various downstream applications enabled by the reconstructed editable Blender scenes.