Denken in Blender: Stufenweise ausführbare inverse Grafik mit Vision-Language-Modellen

Zusammenfassung

Inverse Grafik ist ein seit langem bestehendes und stark unterbestimmtes Problem, bei dem versucht wird, Bilder als editierbare 3D-Szenen zu rekonstruieren, die gerendert, neu beleuchtet und manipuliert werden können. In dieser Arbeit untersuchen wir, ob vortrainierte Vision-Language-Modelle (VLMs) inverse Grafik direkt aus einem einzelnen Bild ausführbar umsetzen können, indem sie eine Szene als ein editierbares Blender-Programm rekonstruieren – ohne auf spezialisierte 2D- oder 3D-Basismodelle, differenzierbares Rendering oder Multi-View-Überwachung angewiesen zu sein. Wir stellen Staged Executable Inverse Graphics (SEIG) vor, ein agentisches Framework, das eine 3D-Szene aus einem einzelnen Bild rekonstruiert, indem es Szenenfaktoren wie Geometrie, Materialien, Komposition und Beleuchtung schrittweise direkt im ausführbaren Blender-Code-Raum verfeinert. Wir evaluieren unser Framework an verschiedenen Szenen anhand einer Reihe von Rekonstruktionsmetriken, die die Pixelgenauigkeit, Wahrnehmungstreue und semantische Genauigkeit abdecken. Unsere Experimente zeigen, dass die gestaffelte Rekonstruktion die Rekonstruktionstreue erheblich verbessert und unterstreichen die Bedeutung der Aufgabenzerlegung für ausführbare inverse Grafik mit allgemeinen VLMs. Abschließend präsentieren wir verschiedene nachgelagerte Anwendungen, die durch die rekonstruierten editierbaren Blender-Szenen ermöglicht werden.

English

Inverse graphics is a longstanding and highly underconstrained problem that seeks to reconstruct images as editable 3D scenes which can be rendered, relit, and manipulated. In this work, we investigate whether pretrained vision-language models (VLMs) can perform executable inverse graphics directly from a single image by reconstructing a scene as an editable Blender program, without relying on specialized 2D or 3D foundation models, differentiable rendering, or multi-view supervision. We introduce Staged Executable Inverse Graphics (SEIG), an agentic framework that reconstructs a 3D scene from a single image by progressively refining scene factors including geometry, materials, composition, and lighting directly in executable Blender code space. We evaluate our framework across diverse scenes using a range of reconstruction metrics spanning pixel-level, perceptual, and semantic fidelity. Our experiments show that staged reconstruction substantially improves reconstruction fidelity, highlighting the importance of task decomposition for executable inverse graphics with general-purpose VLMs. Finally, we showcase various downstream applications enabled by the reconstructed editable Blender scenes.