CurveBench: Ein Benchmark für exakte topologische Schlussfolgerung über verschachtelte Jordankurven

Zusammenfassung

Wir stellen CurveBench vor, einen Benchmark für hierarchisches topologisches Denken auf der Grundlage visueller Eingaben. CurveBench umfasst 756 Bilder von paarweise nicht schneidenden Jordan-Kurven in leichten, polygonalen, topografie-inspirierten, labyrinthartigen sowie dichten Zählkonfigurationen. Jedes Bild ist mit einem Wurzelbaum annotiert, der die Enthaltenseinsbeziehungen zwischen ebenen Regionen kodiert. Wir formulieren die Aufgabe als strukturierte Vorhersage: Ein Modell muss aus einem Bild den vollständigen Wurzelbaum der Enthaltenseinsbeziehungen rekonstruieren, der durch die Kurven induziert wird. Trotz der visuellen Einfachheit der Aufgabe erreicht das stärkste evaluierte Modell, Gemini 3.1 Pro, nur 71,1 % Baumgenerierungsgenauigkeit auf CurveBench-Easy und 19,1 % auf CurveBench-Hard. Wir demonstrieren den Nutzen des Benchmarks weiterhin durch RLVR-artiges Feintuning von Open-Weight-Vision-Language-Modellen. Unser trainiertes Qwen3-VL-8B-Modell verbessert sich gegenüber Qwen-3-VL-8B-Thinking von 2,8 % auf 33,3 % Baumgenerierungsgenauigkeit auf CurveBench-Easy und übertrifft damit GPT-5.4 und Claude Opus 4.5 gemäß unserem Evaluierungsprotokoll. Die verbleibende Lücke, insbesondere bei CurveBench-Hard, zeigt, dass exaktes topologiebewusstes visuelles Denken noch lange nicht gelöst ist.

English

We introduce CurveBench, a benchmark for hierarchical topological reasoning from visual input. CurveBench consists of 756 images of pairwise non-intersecting Jordan curves across easy, polygonal, topographic-inspired, maze-like, and dense counting configurations. Each image is annotated with a rooted tree encoding the containment relations between planar regions. We formulate the task as structured prediction: given an image, a model must recover the full rooted containment tree induced by the curves. Despite the visual simplicity of the task, the strongest evaluated model, Gemini 3.1 Pro, achieves only 71.1\% tree-generation accuracy on CurveBench-Easy and 19.1\% on CurveBench-Hard. We further demonstrate benchmark utility through RLVR-style fine-tuning of open-weight vision-language models. Our trained Qwen3-VL-8B model improves over Qwen-3-VL-8B-Thinking from 2.8\% to 33.3\% tree-generation accuracy on CurveBench-Easy, exceeding GPT-5.4 and Claude Opus 4.5 under our evaluation protocol. The remaining gap, especially on CurveBench-Hard, shows that exact topology-aware visual reasoning remains far from solved.