ShapeCodeBench: Een Hernieuwbare Benchmark voor Perceptie-naar-Programma Reconstructie van Synthetische Vormscènes

Samenvatting

Wij introduceren ShapeCodeBench, een synthetische benchmark voor perceptie-naar-programma-reconstructie: gegeven een gerenderde rasterafbeelding moet een model een uitvoerbaar tekenprogramma genereren dat een deterministische evaluator opnieuw rendert en vergelijkt met het doel. De v1 DSL heeft vier primitieven op een 512×512 zwart-op-wit canvas, maar elke instantie wordt gegenereerd uit een gezaaide RNG, zodat er nieuwe aparte sets kunnen worden aangemaakt om exacte-instantiebesmetting te verminderen. Wij publiceren een bevroren eval_v1-splitsing met 150 voorbeelden verdeeld over gemakkelijke, middelmatige en moeilijke niveaus, gescoord op exacte overeenkomst, pixelnauwkeurigheid, voorgrond-IoU, parseersucces en uitvoeringssucces. Wij evalueren een lege-programma-baseline, een klassieke computer vision-heuristiek, Claude Opus 4.7 op hoog en maximaal inzetniveau, en GPT-5.5 op gemiddeld en extra hoog redeneerniveau. De heuristiek is concurrerend op gemakkelijke scènes maar stort in wanneer overlappingen componenten samensmelten; de sterkste multimodale configuratie behoudt veel van de voorgrondstructuur maar mist nog steeds exacte overeenkomst vanwege kleine parameterfouten. De beste algehele exacte overeenkomst blijft laag, dus ShapeCodeBench is verre van verzadigd. De benchmarkcode, de bevroren dataset, de uitvoeringsartefacten en de paperbronnen worden vrijgegeven om onafhankelijke replicatie en uitbreiding te ondersteunen.

English

We introduce ShapeCodeBench, a synthetic benchmark for perception-to-program reconstruction: given a rendered raster image, a model must emit an executable drawing program that a deterministic evaluator re-renders and compares with the target. The v1 DSL has four primitives on a 512 x 512 black-on-white canvas, but every instance is generated from a seeded RNG, so fresh held-out sets can be created to reduce exact-instance contamination. We release a frozen eval_v1 split with 150 samples across easy, medium, and hard tiers, scored by exact match, pixel accuracy, foreground IoU, parse success, and execution success. We evaluate an empty-program floor, a classical computer-vision heuristic, Claude Opus 4.7 at high and max effort, and GPT-5.5 at medium and extra_high reasoning effort. The heuristic is competitive on easy scenes but collapses when overlaps fuse components; the strongest multimodal configuration preserves much of the foreground structure but still misses exact match because of small parameter errors. Best overall exact match remains low, so ShapeCodeBench is far from saturated. The benchmark code, frozen dataset, run artifacts, and paper sources are released to support independent replication and extension.