3DCodeBench: Het benchmarken van agentische procedurele 3D-modellering via code

Samenvatting

Procedureel 3D-modelleren via code komt naar voren als een veelzijdig paradigma dat deterministische, engine-klare en nauwkeurig bewerkbare assets biedt, wat inherent ontbreekt bij neurale 3D-generatoren. Het creëren van dergelijke procedurele inhoud vereist echter diepgaande expertise in 3D-software-API’s, parametrisch ontwerp en code-niveau geometrische redenering. In dit artikel introduceren we 3DCodeBench, een systematische benchmark voor het evalueren van visie-taalmodel (VLM)-agenten voor procedurele 3D-generatie in 3D-modelleringssoftware. Specifiek evalueert 3DCodeBench hoe effectief 12 geavanceerde VLM’s kunnen fungeren als procedurele 3D-modelleurs door tekst- en beeldreferenties te vertalen naar procedurele code voor 3D-modelleringssoftware. Omdat geautomatiseerde metrieken de perceptuele kwaliteit van 3D-vormen mogelijk niet volledig vatten, bouwen we 3DCodeArena, een rangschikkingsplatform gebaseerd op paarsgewijze menselijke voorkeuren voor gegenereerde 3D-outputs. Uit uitgebreide evaluaties en resultaten observeren we dat: (1) fouten meestal voortkomen uit API-mismatches, terwijl succesvolle renders nog steeds lijden onder losgekoppelde of zwevende 3D-geometrische componenten. (2) Testtijdsschaling, zoals hogere denkbudgetten en meerstapsverfijning, verbetert de algehele prestaties. Onze bevindingen benadrukken een kritieke behoefte aan hoogwaardige procedurele codedata om commerciële VLM’s vooruit te helpen. Bovendien vereist effectief procedureel 3D-modelleren een robuuste uitvoeringsomgeving die feedback van hoge betrouwbaarheid biedt voor iteratieve verfijning. We geven 3DCodeBench vrij, inclusief de samengestelde grootschalige dataset van multimodale (tekst/beeld) prompts, procedurele code, 3D-objecttripletten, evaluatieprotocol en het publieke 3DCodeArena-platform als een fundamentele toolkit voor het verkennen van VLM-gebaseerde procedurele 3D-modelleurs.

English

Procedural 3D modeling through code is emerging as a versatile paradigm, offering deterministic, engine-ready, and precisely editable assets that neural 3D generators inherently lack. Authoring such procedural content, however, demands deep expertise in 3D software APIs, parametric design, and code-level geometric reasoning. In this paper, we propose 3DCodeBench, a systematic benchmark for evaluating vision-language model (VLM) agents for procedural 3D generation in 3D modeling software. Specifically, 3DCodeBench evaluates how effectively 12 advanced VLMs can serve as procedural 3D modelers by translating text and image references into procedural code for 3D modeling software. Recognizing that automated metrics may not fully capture the perceptual quality of 3D shapes, we build 3DCodeArena, a ranking platform based on pairwise human preferences over generated 3D outputs. From extensive evaluations and results, we observe that: (1) Failures mostly arise from API mismatches, while successful renders still suffer from disconnected or floating 3D geometric components. (2) Test-time scaling, such as higher thinking budgets and multi-turn refinement, improves performance overall. Our findings highlight a critical need for high-quality procedural coding data to advance commercial VLMs. Furthermore, effective procedural 3D modeling requires a robust execution environment that provides high-fidelity feedback for iterative refinement. We release 3DCodeBench, including the curated large-scale dataset of multimodal (text/image) prompts, procedural code, 3D object triplets, evaluation protocol, and the public 3DCodeArena platform as a foundational toolkit for exploring VLM-based procedural 3D modelers.