CurveBench: Un Benchmark para el Razonamiento Topológico Exacto sobre Curvas de Jordan Anidadas

Resumen

Presentamos CurveBench, un punto de referencia para el razonamiento topológico jerárquico a partir de entradas visuales. CurveBench consta de 756 imágenes de curvas de Jordan sin intersecciones por pares, organizadas en configuraciones fáciles, poligonales, inspiradas en topografía, laberínticas y de conteo denso. Cada imagen está anotada con un árbol enraizado que codifica las relaciones de contención entre regiones planares. Formulamos la tarea como predicción estructurada: dado el input visual, el modelo debe recuperar el árbol completo de contención enraizado inducido por las curvas. A pesar de la simplicidad visual de la tarea, el modelo mejor evaluado, Gemini 3.1 Pro, solo alcanza un 71.1% de precisión en la generación de árboles en CurveBench-Easy y un 19.1% en CurveBench-Hard. Además, demostramos la utilidad del punto de referencia mediante el ajuste fino estilo RLVR de modelos de lenguaje-visión de peso abierto. Nuestro modelo entrenado Qwen3-VL-8B mejora del 2.8% al 33.3% en precisión de generación de árboles en CurveBench-Easy respecto a Qwen-3-VL-8B-Thinking, superando a GPT-5.4 y Claude Opus 4.5 según nuestro protocolo de evaluación. La brecha restante, especialmente en CurveBench-Hard, muestra que el razonamiento visual exacto con conciencia topológica está lejos de resolverse.

English

We introduce CurveBench, a benchmark for hierarchical topological reasoning from visual input. CurveBench consists of 756 images of pairwise non-intersecting Jordan curves across easy, polygonal, topographic-inspired, maze-like, and dense counting configurations. Each image is annotated with a rooted tree encoding the containment relations between planar regions. We formulate the task as structured prediction: given an image, a model must recover the full rooted containment tree induced by the curves. Despite the visual simplicity of the task, the strongest evaluated model, Gemini 3.1 Pro, achieves only 71.1\% tree-generation accuracy on CurveBench-Easy and 19.1\% on CurveBench-Hard. We further demonstrate benchmark utility through RLVR-style fine-tuning of open-weight vision-language models. Our trained Qwen3-VL-8B model improves over Qwen-3-VL-8B-Thinking from 2.8\% to 33.3\% tree-generation accuracy on CurveBench-Easy, exceeding GPT-5.4 and Claude Opus 4.5 under our evaluation protocol. The remaining gap, especially on CurveBench-Hard, shows that exact topology-aware visual reasoning remains far from solved.