P3D-Bench : Évaluation des MLLM pour la génération 3D paramétrique et le raisonnement structurel

Résumé

Les grands modèles de langage multimodaux peuvent écrire du code pour générer des programmes complexes, ainsi qu'utiliser des programmes pour effectuer de la modélisation 3D, ce qui ouvre une nouvelle voie pour la génération 3D alimentée par leurs connaissances préalables, leur connaissance du monde et leur raisonnement. Pourtant, les référentiels existants évaluent rarement la modélisation 3D via le code. Une telle modélisation exige plus qu'un code exécutable : à partir d'une spécification textuelle ou visuelle, un modèle doit générer un programme 3D paramétrique qui est géométriquement précis, sémantiquement aligné et cohérent au niveau de l'assemblage. Nous présentons P3D-Bench, un référentiel pour la génération 3D paramétrique. Contrairement à un maillage 3D, un programme 3D paramétrique expose des dimensions explicites, des opérations de construction et des relations entre les pièces, révélant si un modèle retrouve la structure d'une conception, et pas seulement son apparence. Sous un protocole unifié, P3D-Bench couvre trois familles de tâches (Texte vers 3D, Image vers 3D et Assemblage 3D) et évalue chaque sortie pour l'exécutabilité, la fidélité géométrique, la topologie, les contraintes ancrées dans le texte, l'alignement sémantique multivue et la structure au niveau des pièces. Nous évaluons les MLLM de pointe et les LLM uniquement textuels sur 400 cas textuels, 400 cas d'image et 203 assemblages annotés, avec des modèles spécifiques au domaine comme points de référence. Notre évaluation approfondie produit trois résultats. Premièrement, les assemblages sont le cadre le plus difficile, où les modèles échouent encore à composer plusieurs pièces en une structure cohérente. Deuxièmement, les modèles peuvent souvent retrouver la forme globale et l'identité sémantique de l'objet cible, mais échouent à reproduire la géométrie paramétrique précise spécifiée par l'entrée. Troisièmement, la modélisation au niveau des pièces reste faible sur les assemblages, où les modèles ne retrouvent ni la géométrie de chaque pièce ni le nombre correct de pièces. Ces résultats positionnent P3D-Bench comme un référentiel pour l'évaluation de la géométrie paramétrique précise et de la structure au niveau des pièces dans la génération 3D paramétrique.

English

Multimodal large language models can write code to produce complex programs as well as use programs to do 3D modeling, which opens up a new avenue for 3D generation powered by their priors, world knowledge and reasoning. Yet existing benchmarks rarely evaluate 3D modeling through code. Such modeling demands more than runnable code: from a text or visual specification, a model must generate a parametric 3D program that is geometrically precise, semantically aligned and assembly-consistent. We introduce P3D-Bench, a benchmark for parametric 3D generation. Unlike a 3D mesh, a parametric 3D program exposes explicit dimensions, construction operations and part relations, revealing whether a model recovers a design's structure, not just its appearance. Under a unified protocol, P3D-Bench covers three task families (Text-to-3D, Image-to-3D and Assembly-3D) and scores each output for executability, geometric fidelity, topology, text-grounded constraints, multiview semantic alignment and part-level structure. We evaluate frontier MLLMs and text-only LLMs on 400 text cases, 400 image cases and 203 annotated assemblies, with domain-specific models as reference points. Our extensive evaluation yields three findings. First, assemblies are the hardest setting, where models still fail to compose multiple parts into a coherent structure. Second, models can often recover the global shape and semantic identity of the target object, yet fail to reproduce the precise parametric geometry specified by the input. Third, part-level modeling remains weak on assemblies, where models recover neither the geometry of each part nor the right number of parts. These results position P3D-Bench as a benchmark for evaluating precise parametric geometry and part-level structure in parametric 3D generation.