ShapeCodeBench: um benchmark renovável para reconstrução de percepção para programa de cenas de formas sintéticas

Resumo

Apresentamos o ShapeCodeBench, um benchmark sintético para reconstrução de percepção para programa: dada uma imagem raster renderizada, um modelo deve emitir um programa de desenho executável que um avaliador determinístico re-renderiza e compara com o alvo. O DSL v1 possui quatro primitivas em um canvas de 512 x 512 preto sobre branco, mas cada instância é gerada a partir de um RNG semeado, permitindo criar novos conjuntos de teste isolados para reduzir a contaminação por instância exata. Disponibilizamos uma divisão congelada eval_v1 com 150 amostras distribuídas nos níveis fácil, médio e difícil, pontuadas por correspondência exata, precisão de pixel, IoU de primeiro plano, sucesso de parsing e sucesso de execução. Avaliamos uma linha de base de programa vazio, uma heurística clássica de visão computacional, o Claude Opus 4.7 com esforço alto e máximo, e o GPT-5.5 com esforço de raciocínio médio e extra_alto. A heurística é competitiva em cenas fáceis, mas colapsa quando sobreposições fundem componentes; a configuração multimodal mais forte preserva grande parte da estrutura do primeiro plano, mas ainda falha na correspondência exata devido a pequenos erros de parâmetros. A melhor correspondência exata geral permanece baixa, portanto o ShapeCodeBench está longe de estar saturado. O código do benchmark, o conjunto de dados congelado, os artefatos de execução e as fontes do artigo são disponibilizados para apoiar replicação e extensão independentes.

English

We introduce ShapeCodeBench, a synthetic benchmark for perception-to-program reconstruction: given a rendered raster image, a model must emit an executable drawing program that a deterministic evaluator re-renders and compares with the target. The v1 DSL has four primitives on a 512 x 512 black-on-white canvas, but every instance is generated from a seeded RNG, so fresh held-out sets can be created to reduce exact-instance contamination. We release a frozen eval_v1 split with 150 samples across easy, medium, and hard tiers, scored by exact match, pixel accuracy, foreground IoU, parse success, and execution success. We evaluate an empty-program floor, a classical computer-vision heuristic, Claude Opus 4.7 at high and max effort, and GPT-5.5 at medium and extra_high reasoning effort. The heuristic is competitive on easy scenes but collapses when overlaps fuse components; the strongest multimodal configuration preserves much of the foreground structure but still misses exact match because of small parameter errors. Best overall exact match remains low, so ShapeCodeBench is far from saturated. The benchmark code, frozen dataset, run artifacts, and paper sources are released to support independent replication and extension.