P3D-Bench: бенчмаркинг MLLM для параметрической 3D-генерации и структурного рассуждения
P3D-Bench: Benchmarking MLLMs for Parametric 3D Generation and Structural Reasoning
June 9, 2026
Авторы: Yikang Yang, Zhanpeng Hu, Youtian Lin, Mengqi Zhou, Jingxi Xu, Feihu Zhang, Jiaheng Liu, Yao Yao
cs.AI
Аннотация
Мультимодальные большие языковые модели могут писать код для создания сложных программ, а также использовать программы для 3D-моделирования, что открывает новое направление в 3D-генерации, основанное на их априорных знаниях, знаниях о мире и рассуждениях. Однако существующие бенчмарки редко оценивают 3D-моделирование с помощью кода. Такое моделирование требует большего, чем просто исполняемый код: на основе текстового или визуального описания модель должна сгенерировать параметрическую 3D-программу, которая является геометрически точной, семантически согласованной и соответствующей сборке. Мы представляем P3D-Bench — бенчмарк для параметрической 3D-генерации. В отличие от 3D-сетки, параметрическая 3D-программа раскрывает явные размеры, операции построения и отношения между частями, показывая, восстанавливает ли модель структуру дизайна, а не только его внешний вид. В рамках единого протокола P3D-Bench охватывает три семейства задач (Text-to-3D, Image-to-3D и Assembly-3D) и оценивает каждый результат по критериям исполняемости, геометрической точности, топологии, текстово-зависимых ограничений, многовидовой семантической согласованности и структуры на уровне частей. Мы оцениваем передовые MLLM и текстовые LLM на 400 текстовых примерах, 400 примерах с изображениями и 203 аннотированных сборках, используя специализированные модели в качестве референсных точек. Наше обширное оценивание дает три результата. Во-первых, сборки являются наиболее сложным сценарием, где модели все еще не могут собрать несколько частей в согласованную структуру. Во-вторых, модели часто могут восстановить глобальную форму и семантическую идентичность целевого объекта, но не могут воспроизвести точную параметрическую геометрию, заданную входными данными. В-третьих, моделирование на уровне частей остается слабым в сборках, где модели не восстанавливают ни геометрию каждой части, ни правильное количество частей. Эти результаты позиционируют P3D-Bench как бенчмарк для оценки точной параметрической геометрии и структуры на уровне частей в параметрической 3D-генерации.
English
Multimodal large language models can write code to produce complex programs as well as use programs to do 3D modeling, which opens up a new avenue for 3D generation powered by their priors, world knowledge and reasoning. Yet existing benchmarks rarely evaluate 3D modeling through code. Such modeling demands more than runnable code: from a text or visual specification, a model must generate a parametric 3D program that is geometrically precise, semantically aligned and assembly-consistent. We introduce P3D-Bench, a benchmark for parametric 3D generation. Unlike a 3D mesh, a parametric 3D program exposes explicit dimensions, construction operations and part relations, revealing whether a model recovers a design's structure, not just its appearance. Under a unified protocol, P3D-Bench covers three task families (Text-to-3D, Image-to-3D and Assembly-3D) and scores each output for executability, geometric fidelity, topology, text-grounded constraints, multiview semantic alignment and part-level structure. We evaluate frontier MLLMs and text-only LLMs on 400 text cases, 400 image cases and 203 annotated assemblies, with domain-specific models as reference points. Our extensive evaluation yields three findings. First, assemblies are the hardest setting, where models still fail to compose multiple parts into a coherent structure. Second, models can often recover the global shape and semantic identity of the target object, yet fail to reproduce the precise parametric geometry specified by the input. Third, part-level modeling remains weak on assemblies, where models recover neither the geometry of each part nor the right number of parts. These results position P3D-Bench as a benchmark for evaluating precise parametric geometry and part-level structure in parametric 3D generation.