3DCodeBench: Benchmarking del Modelado 3D Procedimental Agéntico Mediante Código

Resumen

El modelado 3D procedural mediante código está surgiendo como un paradigma versátil, que ofrece activos deterministas, listos para motores y precisamente editables que los generadores 3D neuronales carecen inherentemente. No obstante, la creación de dicho contenido procedural exige un profundo conocimiento en APIs de software 3D, diseño paramétrico y razonamiento geométrico a nivel de código. En este artículo, proponemos 3DCodeBench, un benchmark sistemático para evaluar agentes de modelos de visión-lenguaje (VLM) para la generación procedural 3D en software de modelado 3D. Específicamente, 3DCodeBench evalúa la eficacia con la que 12 VLM avanzados pueden servir como modeladores 3D procedurales traduciendo referencias de texto e imágenes a código procedural para software de modelado 3D. Reconociendo que las métricas automatizadas pueden no capturar completamente la calidad perceptual de las formas 3D, construimos 3DCodeArena, una plataforma de clasificación basada en preferencias humanas por pares sobre las salidas 3D generadas. A partir de extensas evaluaciones y resultados, observamos que: (1) Los fallos surgen principalmente de discrepancias en las APIs, mientras que los renders exitosos aún sufren de componentes geométricos 3D desconectados o flotantes. (2) El escalado en tiempo de prueba, como mayores presupuestos de pensamiento y refinamiento en múltiples turnos, mejora el rendimiento general. Nuestros hallazgos resaltan una necesidad crítica de datos de codificación procedural de alta calidad para avanzar en los VLM comerciales. Además, el modelado 3D procedural efectivo requiere un entorno de ejecución robusto que proporcione retroalimentación de alta fidelidad para el refinamiento iterativo. Publicamos 3DCodeBench, que incluye el conjunto de datos a gran escala curado de indicaciones multimodales (texto/imagen), código procedural, tripletes de objetos 3D, protocolo de evaluación y la plataforma pública 3DCodeArena como un conjunto de herramientas fundamental para explorar modeladores 3D procedurales basados en VLM.

English

Procedural 3D modeling through code is emerging as a versatile paradigm, offering deterministic, engine-ready, and precisely editable assets that neural 3D generators inherently lack. Authoring such procedural content, however, demands deep expertise in 3D software APIs, parametric design, and code-level geometric reasoning. In this paper, we propose 3DCodeBench, a systematic benchmark for evaluating vision-language model (VLM) agents for procedural 3D generation in 3D modeling software. Specifically, 3DCodeBench evaluates how effectively 12 advanced VLMs can serve as procedural 3D modelers by translating text and image references into procedural code for 3D modeling software. Recognizing that automated metrics may not fully capture the perceptual quality of 3D shapes, we build 3DCodeArena, a ranking platform based on pairwise human preferences over generated 3D outputs. From extensive evaluations and results, we observe that: (1) Failures mostly arise from API mismatches, while successful renders still suffer from disconnected or floating 3D geometric components. (2) Test-time scaling, such as higher thinking budgets and multi-turn refinement, improves performance overall. Our findings highlight a critical need for high-quality procedural coding data to advance commercial VLMs. Furthermore, effective procedural 3D modeling requires a robust execution environment that provides high-fidelity feedback for iterative refinement. We release 3DCodeBench, including the curated large-scale dataset of multimodal (text/image) prompts, procedural code, 3D object triplets, evaluation protocol, and the public 3DCodeArena platform as a foundational toolkit for exploring VLM-based procedural 3D modelers.