3DCodeBench: Benchmarking de Modelagem 3D Procedural com Agentes via Código

Resumo

A modelagem 3D procedural por meio de código está emergindo como um paradigma versátil, oferecendo ativos determinísticos, prontos para motor gráfico e editáveis com precisão, características que os geradores neurais 3D inerentemente não possuem. No entanto, a criação de tal conteúdo procedural exige profunda expertise em APIs de software 3D, design paramétrico e raciocínio geométrico em nível de código. Neste artigo, propomos o 3DCodeBench, um benchmark sistemático para avaliar agentes de modelo de visão-linguagem (VLM) para geração procedural 3D em softwares de modelagem 3D. Especificamente, o 3DCodeBench avalia a eficácia com que 12 VLMs avançados podem atuar como modeladores procedurais 3D, traduzindo referências de texto e imagem em código procedural para software de modelagem 3D. Reconhecendo que métricas automatizadas podem não capturar totalmente a qualidade perceptual de formas 3D, construímos o 3DCodeArena, uma plataforma de ranqueamento baseada em preferências humanas pareadas sobre as saídas 3D geradas. A partir de avaliações e resultados extensivos, observamos que: (1) As falhas decorrem principalmente de incompatibilidades de API, enquanto as renderizações bem-sucedidas ainda sofrem com componentes geométricos 3D desconectados ou flutuantes. (2) O escalonamento em tempo de teste, como maiores orçamentos de pensamento e refinamento em múltiplas interações, melhora o desempenho geral. Nossos achados destacam uma necessidade crítica de dados de codificação procedural de alta qualidade para avançar VLMs comerciais. Além disso, a modelagem procedural 3D eficaz requer um ambiente de execução robusto que forneça feedback de alta fidelidade para refinamento iterativo. Disponibilizamos o 3DCodeBench, incluindo o conjunto de dados curado em larga escala de prompts multimodais (texto/imagem), código procedural, trios de objetos 3D, protocolo de avaliação e a plataforma pública 3DCodeArena como um kit de ferramentas fundamental para explorar modeladores procedurais 3D baseados em VLM.

English

Procedural 3D modeling through code is emerging as a versatile paradigm, offering deterministic, engine-ready, and precisely editable assets that neural 3D generators inherently lack. Authoring such procedural content, however, demands deep expertise in 3D software APIs, parametric design, and code-level geometric reasoning. In this paper, we propose 3DCodeBench, a systematic benchmark for evaluating vision-language model (VLM) agents for procedural 3D generation in 3D modeling software. Specifically, 3DCodeBench evaluates how effectively 12 advanced VLMs can serve as procedural 3D modelers by translating text and image references into procedural code for 3D modeling software. Recognizing that automated metrics may not fully capture the perceptual quality of 3D shapes, we build 3DCodeArena, a ranking platform based on pairwise human preferences over generated 3D outputs. From extensive evaluations and results, we observe that: (1) Failures mostly arise from API mismatches, while successful renders still suffer from disconnected or floating 3D geometric components. (2) Test-time scaling, such as higher thinking budgets and multi-turn refinement, improves performance overall. Our findings highlight a critical need for high-quality procedural coding data to advance commercial VLMs. Furthermore, effective procedural 3D modeling requires a robust execution environment that provides high-fidelity feedback for iterative refinement. We release 3DCodeBench, including the curated large-scale dataset of multimodal (text/image) prompts, procedural code, 3D object triplets, evaluation protocol, and the public 3DCodeArena platform as a foundational toolkit for exploring VLM-based procedural 3D modelers.