P3D-Bench: Benchmarking de MLLMs para la Generación 3D Paramétrica y el Razonamiento Estructural

Resumen

Los modelos de lenguaje multimodal a gran escala pueden escribir código para producir programas complejos, así como utilizar programas para realizar modelado 3D, lo que abre una nueva vía para la generación 3D impulsada por sus conocimientos previos, comprensión del mundo y razonamiento. Sin embargo, los benchmarks existentes rara vez evalúan el modelado 3D a través del código. Este tipo de modelado exige más que un código ejecutable: a partir de una especificación textual o visual, un modelo debe generar un programa 3D paramétrico que sea geométricamente preciso, semánticamente alineado y consistente en el ensamblaje. Presentamos P3D-Bench, un benchmark para la generación 3D paramétrica. A diferencia de una malla 3D, un programa 3D paramétrico expone dimensiones explícitas, operaciones de construcción y relaciones entre partes, revelando si un modelo recupera la estructura de un diseño, no solo su apariencia. Bajo un protocolo unificado, P3D-Bench abarca tres familias de tareas (Texto a 3D, Imagen a 3D y Ensamblaje 3D) y puntúa cada salida en términos de ejecutabilidad, fidelidad geométrica, topología, restricciones basadas en texto, alineación semántica multivista y estructura a nivel de partes. Evaluamos modelos MLLM de frontera y LLM solo de texto en 400 casos textuales, 400 casos de imagen y 203 ensamblajes anotados, utilizando modelos específicos del dominio como puntos de referencia. Nuestra evaluación exhaustiva arroja tres hallazgos. Primero, los ensamblajes son el escenario más difícil, donde los modelos aún fallan al componer múltiples partes en una estructura coherente. Segundo, los modelos a menudo pueden recuperar la forma global y la identidad semántica del objeto objetivo, pero no logran reproducir la geometría paramétrica precisa especificada por la entrada. Tercero, el modelado a nivel de partes sigue siendo débil en los ensamblajes, donde los modelos no recuperan ni la geometría de cada parte ni el número correcto de partes. Estos resultados posicionan a P3D-Bench como un benchmark para evaluar la geometría paramétrica precisa y la estructura a nivel de partes en la generación 3D paramétrica.

English

Multimodal large language models can write code to produce complex programs as well as use programs to do 3D modeling, which opens up a new avenue for 3D generation powered by their priors, world knowledge and reasoning. Yet existing benchmarks rarely evaluate 3D modeling through code. Such modeling demands more than runnable code: from a text or visual specification, a model must generate a parametric 3D program that is geometrically precise, semantically aligned and assembly-consistent. We introduce P3D-Bench, a benchmark for parametric 3D generation. Unlike a 3D mesh, a parametric 3D program exposes explicit dimensions, construction operations and part relations, revealing whether a model recovers a design's structure, not just its appearance. Under a unified protocol, P3D-Bench covers three task families (Text-to-3D, Image-to-3D and Assembly-3D) and scores each output for executability, geometric fidelity, topology, text-grounded constraints, multiview semantic alignment and part-level structure. We evaluate frontier MLLMs and text-only LLMs on 400 text cases, 400 image cases and 203 annotated assemblies, with domain-specific models as reference points. Our extensive evaluation yields three findings. First, assemblies are the hardest setting, where models still fail to compose multiple parts into a coherent structure. Second, models can often recover the global shape and semantic identity of the target object, yet fail to reproduce the precise parametric geometry specified by the input. Third, part-level modeling remains weak on assemblies, where models recover neither the geometry of each part nor the right number of parts. These results position P3D-Bench as a benchmark for evaluating precise parametric geometry and part-level structure in parametric 3D generation.