3DCodeBench: Benchmarking agentenbasierter prozeduraler 3D-Modellierung durch Code

Zusammenfassung

Prozedurale 3D-Modellierung mittels Code entwickelt sich zu einem vielseitigen Paradigma, das deterministische, engine-bereite und präzise bearbeitbare Assets bietet, die neuronalen 3D-Generatoren von Natur aus fehlen. Die Erstellung solcher prozeduralen Inhalte erfordert jedoch tiefgehende Kenntnisse in 3D-Software-APIs, parametrischem Design und geometrischem Denken auf Code-Ebene. In dieser Arbeit schlagen wir 3DCodeBench vor, einen systematischen Benchmark zur Evaluierung von Vision-Language-Modell (VLM)-Agenten für die prozedurale 3D-Generierung in 3D-Modellierungssoftware. Konkret bewertet 3DCodeBench, wie effektiv 12 fortschrittliche VLMs als prozedurale 3D-Modellierer dienen können, indem sie Text- und Bildreferenzen in prozeduralen Code für 3D-Modellierungssoftware übersetzen. In Anerkennung der Tatsache, dass automatisierte Metriken die wahrnehmungsbezogene Qualität von 3D-Formen möglicherweise nicht vollständig erfassen, bauen wir 3DCodeArena, eine Ranking-Plattform, die auf paarweisen menschlichen Präferenzen für generierte 3D-Ergebnisse basiert. Aus umfangreichen Evaluierungen und Ergebnissen beobachten wir: (1) Fehler resultieren meist aus API-Fehlanpassungen, während erfolgreiche Renderings immer noch unter nicht verbundenen oder schwebenden 3D-Geometriekomponenten leiden. (2) Testzeit-Skalierung, wie höhere Denkbudgets und mehrstufige Verfeinerung, verbessert die Gesamtleistung. Unsere Ergebnisse unterstreichen einen kritischen Bedarf an hochwertigen prozeduralen Codierungsdaten, um kommerzielle VLMs voranzubringen. Darüber hinaus erfordert effektive prozedurale 3D-Modellierung eine robuste Ausführungsumgebung, die hochauflösendes Feedback für iterative Verfeinerung bietet. Wir veröffentlichen 3DCodeBench, einschließlich des kuratierten groß angelegten Datensatzes mit multimodalen (Text/Bild) Prompts, prozeduralem Code, 3D-Objekt-Tripletts, Evaluierungsprotokoll und der öffentlichen 3DCodeArena-Plattform als grundlegendes Toolkit zur Erforschung VLM-basierter prozeduraler 3D-Modellierer.

English

Procedural 3D modeling through code is emerging as a versatile paradigm, offering deterministic, engine-ready, and precisely editable assets that neural 3D generators inherently lack. Authoring such procedural content, however, demands deep expertise in 3D software APIs, parametric design, and code-level geometric reasoning. In this paper, we propose 3DCodeBench, a systematic benchmark for evaluating vision-language model (VLM) agents for procedural 3D generation in 3D modeling software. Specifically, 3DCodeBench evaluates how effectively 12 advanced VLMs can serve as procedural 3D modelers by translating text and image references into procedural code for 3D modeling software. Recognizing that automated metrics may not fully capture the perceptual quality of 3D shapes, we build 3DCodeArena, a ranking platform based on pairwise human preferences over generated 3D outputs. From extensive evaluations and results, we observe that: (1) Failures mostly arise from API mismatches, while successful renders still suffer from disconnected or floating 3D geometric components. (2) Test-time scaling, such as higher thinking budgets and multi-turn refinement, improves performance overall. Our findings highlight a critical need for high-quality procedural coding data to advance commercial VLMs. Furthermore, effective procedural 3D modeling requires a robust execution environment that provides high-fidelity feedback for iterative refinement. We release 3DCodeBench, including the curated large-scale dataset of multimodal (text/image) prompts, procedural code, 3D object triplets, evaluation protocol, and the public 3DCodeArena platform as a foundational toolkit for exploring VLM-based procedural 3D modelers.