P3D-Bench: Het benchmarken van MLLMs voor parametrische 3D-generatie en structureel redeneren

Samenvatting

Multimodale grote taalmodellen kunnen code schrijven om complexe programma's te produceren en programma's gebruiken voor 3D-modellering, wat een nieuwe weg opent voor 3D-generatie op basis van hun voorkennis, wereldkennis en redeneervermogen. Toch evalueren bestaande benchmarks zelden 3D-modellering via code. Dergelijke modellering vereist meer dan alleen uitvoerbare code: op basis van een tekstuele of visuele specificatie moet een model een parametrisch 3D-programma genereren dat geometrisch precies, semantisch uitgelijnd en assemblageconsistent is. We introduceren P3D-Bench, een benchmark voor parametrische 3D-generatie. In tegenstelling tot een 3D-mesh maakt een parametrisch 3D-programma expliciete afmetingen, constructiebewerkingen en onderdeelrelaties zichtbaar, waardoor zichtbaar wordt of een model de structuur van een ontwerp herstelt, niet alleen het uiterlijk. Onder een uniform protocol omvat P3D-Bench drie taakfamilies (Tekst-naar-3D, Afbeelding-naar-3D en Assemblage-3D) en beoordeelt elke uitvoer op uitvoerbaarheid, geometrische nauwkeurigheid, topologie, tekstgebonden beperkingen, multiview-semantische uitlijning en structuur op onderdeelniveau. We evalueren geavanceerde MLLM's en alleen-tekst-LLM's op 400 tekstgevallen, 400 afbeeldingsgevallen en 203 geannoteerde assemblages, met domeinspecifieke modellen als referentiepunten. Onze uitgebreide evaluatie levert drie bevindingen op. Ten eerste zijn assemblages de moeilijkste setting, waarin modellen er nog niet in slagen meerdere onderdelen tot een coherente structuur te combineren. Ten tweede kunnen modellen vaak de globale vorm en semantische identiteit van het doelobject herstellen, maar slagen ze er niet in de precieze parametrische geometrie te reproduceren die door de invoer wordt gespecificeerd. Ten derde blijft modellering op onderdeelniveau zwak bij assemblages, waarbij modellen noch de geometrie van elk onderdeel noch het juiste aantal onderdelen herstellen. Deze resultaten positioneren P3D-Bench als een benchmark voor het evalueren van precieze parametrische geometrie en structuur op onderdeelniveau in parametrische 3D-generatie.

English

Multimodal large language models can write code to produce complex programs as well as use programs to do 3D modeling, which opens up a new avenue for 3D generation powered by their priors, world knowledge and reasoning. Yet existing benchmarks rarely evaluate 3D modeling through code. Such modeling demands more than runnable code: from a text or visual specification, a model must generate a parametric 3D program that is geometrically precise, semantically aligned and assembly-consistent. We introduce P3D-Bench, a benchmark for parametric 3D generation. Unlike a 3D mesh, a parametric 3D program exposes explicit dimensions, construction operations and part relations, revealing whether a model recovers a design's structure, not just its appearance. Under a unified protocol, P3D-Bench covers three task families (Text-to-3D, Image-to-3D and Assembly-3D) and scores each output for executability, geometric fidelity, topology, text-grounded constraints, multiview semantic alignment and part-level structure. We evaluate frontier MLLMs and text-only LLMs on 400 text cases, 400 image cases and 203 annotated assemblies, with domain-specific models as reference points. Our extensive evaluation yields three findings. First, assemblies are the hardest setting, where models still fail to compose multiple parts into a coherent structure. Second, models can often recover the global shape and semantic identity of the target object, yet fail to reproduce the precise parametric geometry specified by the input. Third, part-level modeling remains weak on assemblies, where models recover neither the geometry of each part nor the right number of parts. These results position P3D-Bench as a benchmark for evaluating precise parametric geometry and part-level structure in parametric 3D generation.