CurveBench: Een benchmark voor exact topologisch redeneren over geneste Jordan-curven

Samenvatting

Wij introduceren CurveBench, een benchmark voor hiërarchisch topologisch redeneren op basis van visuele input. CurveBench bestaat uit 756 afbeeldingen van paarsgewijs niet-snijdende Jordankrommen, verdeeld over eenvoudige, veelhoekige, door topografie geïnspireerde, doolhofachtige en dichte telconfiguraties. Elke afbeelding is geannoteerd met een gewortelde boom die de bevattingsrelaties tussen planaire gebieden codeert. We formuleren de taak als gestructureerde voorspelling: gegeven een afbeelding moet een model de volledige gewortelde bevattingsboom, veroorzaakt door de krommen, herstellen. Ondanks de visuele eenvoud van de taak, behaalt het best beoordeelde model, Gemini 3.1 Pro, slechts 71,1% boomgeneratienauwkeurigheid op CurveBench-Eenvoudig en 19,1% op CurveBench-Moeilijk. Verder tonen we het nut van de benchmark aan door middel van RLVR-stijl fine-tuning van open-gewicht visie-taalmodellen. Ons getrainde Qwen3-VL-8B-model verbetert ten opzichte van Qwen-3-VL-8B-Denken van 2,8% naar 33,3% boomgeneratienauwkeurigheid op CurveBench-Eenvoudig, waarmee het onder ons evaluatieprotocol GPT-5.4 en Claude Opus 4.5 overtreft. De resterende kloof, met name op CurveBench-Moeilijk, laat zien dat exact topologiebewust visueel redeneren nog lang niet is opgelost.

English

We introduce CurveBench, a benchmark for hierarchical topological reasoning from visual input. CurveBench consists of 756 images of pairwise non-intersecting Jordan curves across easy, polygonal, topographic-inspired, maze-like, and dense counting configurations. Each image is annotated with a rooted tree encoding the containment relations between planar regions. We formulate the task as structured prediction: given an image, a model must recover the full rooted containment tree induced by the curves. Despite the visual simplicity of the task, the strongest evaluated model, Gemini 3.1 Pro, achieves only 71.1\% tree-generation accuracy on CurveBench-Easy and 19.1\% on CurveBench-Hard. We further demonstrate benchmark utility through RLVR-style fine-tuning of open-weight vision-language models. Our trained Qwen3-VL-8B model improves over Qwen-3-VL-8B-Thinking from 2.8\% to 33.3\% tree-generation accuracy on CurveBench-Easy, exceeding GPT-5.4 and Claude Opus 4.5 under our evaluation protocol. The remaining gap, especially on CurveBench-Hard, shows that exact topology-aware visual reasoning remains far from solved.