Denken in Blender: Gefaseerde uitvoerbare inverse graphics met visie-taalmodellen

Samenvatting

Inverse graphics is een al lang bestaand en sterk onderbepaald probleem dat streeft naar het reconstrueren van afbeeldingen als bewerkbare 3D-scènes die kunnen worden weergegeven, opnieuw belicht en gemanipuleerd. In dit werk onderzoeken we of voorgetrainde visie-taalmodellen (VLMs) direct vanuit een enkel beeld uitvoerbare inverse graphics kunnen uitvoeren door een scène te reconstrueren als een bewerkbaar Blender-programma, zonder gebruik te maken van gespecialiseerde 2D- of 3D-fundamentmodellen, differentieerbare weergave of multi-view supervisie. We introduceren Staged Executable Inverse Graphics (SEIG), een agentisch raamwerk dat een 3D-scène reconstrueert uit een enkel beeld door progressief scènefactoren zoals geometrie, materialen, compositie en belichting te verfijnen, direct in de uitvoerbare Blender-code-ruimte. We evalueren ons raamwerk over diverse scènes met behulp van een reeks reconstructiemetrieken die pixelniveau, perceptuele en semantische getrouwheid omvatten. Onze experimenten tonen aan dat stapsgewijze reconstructie de reconstructiegetrouwheid aanzienlijk verbetert, wat het belang van taakdecompositie voor uitvoerbare inverse graphics met algemene visie-taalmodellen benadrukt. Tot slot presenteren we diverse stroomafwaartse toepassingen die mogelijk worden gemaakt door de gereconstrueerde bewerkbare Blender-scènes.

English

Inverse graphics is a longstanding and highly underconstrained problem that seeks to reconstruct images as editable 3D scenes which can be rendered, relit, and manipulated. In this work, we investigate whether pretrained vision-language models (VLMs) can perform executable inverse graphics directly from a single image by reconstructing a scene as an editable Blender program, without relying on specialized 2D or 3D foundation models, differentiable rendering, or multi-view supervision. We introduce Staged Executable Inverse Graphics (SEIG), an agentic framework that reconstructs a 3D scene from a single image by progressively refining scene factors including geometry, materials, composition, and lighting directly in executable Blender code space. We evaluate our framework across diverse scenes using a range of reconstruction metrics spanning pixel-level, perceptual, and semantic fidelity. Our experiments show that staged reconstruction substantially improves reconstruction fidelity, highlighting the importance of task decomposition for executable inverse graphics with general-purpose VLMs. Finally, we showcase various downstream applications enabled by the reconstructed editable Blender scenes.