P3D-Bench: Avaliação de MLLMs para Geração 3D Paramétrica e Raciocínio Estrutural

Resumo

Modelos de linguagem grandes multimodais podem escrever código para produzir programas complexos, bem como utilizar programas para realizar modelagem 3D, o que abre uma nova via para a geração 3D impulsionada por seus conhecimentos prévios, conhecimento de mundo e raciocínio. No entanto, os benchmarks existentes raramente avaliam a modelagem 3D por meio de código. Tal modelagem exige mais do que código executável: a partir de uma especificação textual ou visual, um modelo deve gerar um programa paramétrico 3D que seja geometricamente preciso, semanticamente alinhado e consistente em termos de montagem. Apresentamos o P3D-Bench, um benchmark para geração 3D paramétrica. Diferentemente de uma malha 3D, um programa paramétrico 3D expõe dimensões explícitas, operações de construção e relações entre partes, revelando se um modelo recupera a estrutura de um design, e não apenas sua aparência. Sob um protocolo unificado, o P3D-Bench abrange três famílias de tarefas (Texto-para-3D, Imagem-para-3D e Montagem-3D) e pontua cada saída quanto a executabilidade, fidelidade geométrica, topologia, restrições baseadas em texto, alinhamento semântico multivista e estrutura no nível das partes. Avaliamos MLLMs de ponta e LLMs exclusivamente textuais em 400 casos textuais, 400 casos imagéticos e 203 montagens anotadas, com modelos específicos de domínio como pontos de referência. Nossa avaliação extensa produz três descobertas. Primeiro, montagens são o cenário mais difícil, onde os modelos ainda falham em compor múltiplas partes em uma estrutura coerente. Segundo, os modelos frequentemente conseguem recuperar a forma global e a identidade semântica do objeto alvo, mas falham em reproduzir a geometria paramétrica precisa especificada pela entrada. Terceiro, a modelagem no nível das partes permanece fraca em montagens, onde os modelos não recuperam nem a geometria de cada parte nem o número correto de partes. Esses resultados posicionam o P3D-Bench como um benchmark para avaliar geometria paramétrica precisa e estrutura no nível das partes na geração 3D paramétrica.

English

Multimodal large language models can write code to produce complex programs as well as use programs to do 3D modeling, which opens up a new avenue for 3D generation powered by their priors, world knowledge and reasoning. Yet existing benchmarks rarely evaluate 3D modeling through code. Such modeling demands more than runnable code: from a text or visual specification, a model must generate a parametric 3D program that is geometrically precise, semantically aligned and assembly-consistent. We introduce P3D-Bench, a benchmark for parametric 3D generation. Unlike a 3D mesh, a parametric 3D program exposes explicit dimensions, construction operations and part relations, revealing whether a model recovers a design's structure, not just its appearance. Under a unified protocol, P3D-Bench covers three task families (Text-to-3D, Image-to-3D and Assembly-3D) and scores each output for executability, geometric fidelity, topology, text-grounded constraints, multiview semantic alignment and part-level structure. We evaluate frontier MLLMs and text-only LLMs on 400 text cases, 400 image cases and 203 annotated assemblies, with domain-specific models as reference points. Our extensive evaluation yields three findings. First, assemblies are the hardest setting, where models still fail to compose multiple parts into a coherent structure. Second, models can often recover the global shape and semantic identity of the target object, yet fail to reproduce the precise parametric geometry specified by the input. Third, part-level modeling remains weak on assemblies, where models recover neither the geometry of each part nor the right number of parts. These results position P3D-Bench as a benchmark for evaluating precise parametric geometry and part-level structure in parametric 3D generation.