CurveBench: Um Benchmark para Raciocínio Topológico Exato sobre Curvas de Jordan Aninhadas

Resumo

Apresentamos o CurveBench, um benchmark para raciocínio topológico hierárquico a partir de entrada visual. O CurveBench consiste em 756 imagens de curvas de Jordan que não se intersectam aos pares, distribuídas em configurações fáceis, poligonais, inspiradas em topografia, labirínticas e de contagem densa. Cada imagem é anotada com uma árvore enraizada que codifica as relações de contenção entre regiões planares. Formulamos a tarefa como predição estruturada: dada uma imagem, o modelo deve recuperar a árvore de contenção enraizada completa induzida pelas curvas. Apesar da simplicidade visual da tarefa, o modelo avaliado mais forte, o Gemini 3.1 Pro, atinge apenas 71,1% de precisão na geração de árvores no CurveBench-Easy e 19,1% no CurveBench-Hard. Demonstramos ainda a utilidade do benchmark por meio do ajuste fino no estilo RLVR de modelos de visão-linguagem de pesos abertos. Nosso modelo treinado Qwen3-VL-8B melhora em relação ao Qwen-3-VL-8B-Thinking de 2,8% para 33,3% de precisão na geração de árvores no CurveBench-Easy, superando o GPT-5.4 e o Claude Opus 4.5 em nosso protocolo de avaliação. A lacuna restante, especialmente no CurveBench-Hard, mostra que o raciocínio visual exato ciente de topologia ainda está longe de ser resolvido.

English

We introduce CurveBench, a benchmark for hierarchical topological reasoning from visual input. CurveBench consists of 756 images of pairwise non-intersecting Jordan curves across easy, polygonal, topographic-inspired, maze-like, and dense counting configurations. Each image is annotated with a rooted tree encoding the containment relations between planar regions. We formulate the task as structured prediction: given an image, a model must recover the full rooted containment tree induced by the curves. Despite the visual simplicity of the task, the strongest evaluated model, Gemini 3.1 Pro, achieves only 71.1\% tree-generation accuracy on CurveBench-Easy and 19.1\% on CurveBench-Hard. We further demonstrate benchmark utility through RLVR-style fine-tuning of open-weight vision-language models. Our trained Qwen3-VL-8B model improves over Qwen-3-VL-8B-Thinking from 2.8\% to 33.3\% tree-generation accuracy on CurveBench-Easy, exceeding GPT-5.4 and Claude Opus 4.5 under our evaluation protocol. The remaining gap, especially on CurveBench-Hard, shows that exact topology-aware visual reasoning remains far from solved.