P3D-Bench: Benchmarking von MLLMs für parametrische 3D-Generierung und strukturelles Denken

Zusammenfassung

Multimodale große Sprachmodelle können Code schreiben, um komplexe Programme zu erstellen, sowie Programme für die 3D-Modellierung nutzen. Dies eröffnet einen neuen Weg für die 3D-Generierung, die auf ihrem Vorwissen, Weltwissen und ihrer Argumentationsfähigkeit basiert. Dennoch bewerten bestehende Benchmarks die 3D-Modellierung durch Code selten. Eine solche Modellierung erfordert mehr als nur ausführbaren Code: Aus einer Text- oder visuellen Spezifikation muss ein Modell ein parametrisches 3D-Programm generieren, das geometrisch präzise, semantisch ausgerichtet und baugruppenkonsistent ist. Wir führen P3D-Bench ein, einen Benchmark für parametrische 3D-Generierung. Im Gegensatz zu einem 3D-Netz legt ein parametrisches 3D-Programm explizite Abmessungen, Konstruktionsoperationen und Beziehungen zwischen Teilen offen und zeigt so, ob ein Modell die Struktur eines Entwurfs wiederherstellt, nicht nur sein Erscheinungsbild. Unter einem einheitlichen Protokoll umfasst P3D-Bench drei Aufgabenfamilien (Text-zu-3D, Bild-zu-3D und Assembly-3D) und bewertet jede Ausgabe hinsichtlich Ausführbarkeit, geometrischer Genauigkeit, Topologie, textbasierter Einschränkungen, multiview-semantischer Ausrichtung und Struktur auf Teilebene. Wir evaluieren führende MLLMs und reine Text-LLMs an 400 Textfällen, 400 Bildfällen und 203 annotierten Baugruppen, mit bereichsspezifischen Modellen als Referenzpunkten. Unsere umfangreiche Evaluierung ergibt drei Erkenntnisse. Erstens sind Baugruppen die schwierigste Umgebung, in der Modelle immer noch daran scheitern, mehrere Teile zu einer kohärenten Struktur zusammenzusetzen. Zweitens können Modelle oft die globale Form und semantische Identität des Zielobjekts wiederherstellen, scheitern jedoch daran, die präzise parametrische Geometrie, die durch die Eingabe spezifiziert wird, zu reproduzieren. Drittens bleibt die Modellierung auf Teilebene bei Baugruppen schwach, wobei Modelle weder die Geometrie jedes Teils noch die richtige Anzahl von Teilen wiederherstellen. Diese Ergebnisse positionieren P3D-Bench als einen Benchmark zur Bewertung präziser parametrischer Geometrie und Struktur auf Teilebene in der parametrischen 3D-Generierung.

English

Multimodal large language models can write code to produce complex programs as well as use programs to do 3D modeling, which opens up a new avenue for 3D generation powered by their priors, world knowledge and reasoning. Yet existing benchmarks rarely evaluate 3D modeling through code. Such modeling demands more than runnable code: from a text or visual specification, a model must generate a parametric 3D program that is geometrically precise, semantically aligned and assembly-consistent. We introduce P3D-Bench, a benchmark for parametric 3D generation. Unlike a 3D mesh, a parametric 3D program exposes explicit dimensions, construction operations and part relations, revealing whether a model recovers a design's structure, not just its appearance. Under a unified protocol, P3D-Bench covers three task families (Text-to-3D, Image-to-3D and Assembly-3D) and scores each output for executability, geometric fidelity, topology, text-grounded constraints, multiview semantic alignment and part-level structure. We evaluate frontier MLLMs and text-only LLMs on 400 text cases, 400 image cases and 203 annotated assemblies, with domain-specific models as reference points. Our extensive evaluation yields three findings. First, assemblies are the hardest setting, where models still fail to compose multiple parts into a coherent structure. Second, models can often recover the global shape and semantic identity of the target object, yet fail to reproduce the precise parametric geometry specified by the input. Third, part-level modeling remains weak on assemblies, where models recover neither the geometry of each part nor the right number of parts. These results position P3D-Bench as a benchmark for evaluating precise parametric geometry and part-level structure in parametric 3D generation.