CurveBench : Un benchmark pour le raisonnement topologique exact sur les courbes de Jordan imbriquées

Résumé

Nous présentons CurveBench, un benchmark pour le raisonnement topologique hiérarchique à partir d'entrées visuelles. CurveBench se compose de 756 images de courbes de Jordan deux à deux non sécantes, réparties en configurations faciles, polygonales, inspirées de topographies, labyrinthiques et de comptage dense. Chaque image est annotée avec un arbre enraciné encodant les relations d'inclusion entre les régions planaires. Nous formulons la tâche comme une prédiction structurée : à partir d'une image, un modèle doit reconstruire l'arbre d'inclusion enraciné complet induit par les courbes. Malgré la simplicité visuelle de la tâche, le modèle le plus performant évalué, Gemini 3.1 Pro, n'atteint que 71,1 % de précision de génération d'arbre sur CurveBench-Easy et 19,1 % sur CurveBench-Hard. Nous démontrons en outre l'utilité du benchmark grâce à un fine-tuning de type RLVR de modèles vision-langage à poids ouverts. Notre modèle entraîné Qwen3-VL-8B améliore la précision de génération d'arbre sur CurveBench-Easy de 2,8 % à 33,3 % par rapport à Qwen-3-VL-8B-Thinking, dépassant GPT-5.4 et Claude Opus 4.5 selon notre protocole d'évaluation. L'écart restant, en particulier sur CurveBench-Hard, montre que le raisonnement visuel exact tenant compte de la topologie est loin d'être résolu.

English

We introduce CurveBench, a benchmark for hierarchical topological reasoning from visual input. CurveBench consists of 756 images of pairwise non-intersecting Jordan curves across easy, polygonal, topographic-inspired, maze-like, and dense counting configurations. Each image is annotated with a rooted tree encoding the containment relations between planar regions. We formulate the task as structured prediction: given an image, a model must recover the full rooted containment tree induced by the curves. Despite the visual simplicity of the task, the strongest evaluated model, Gemini 3.1 Pro, achieves only 71.1\% tree-generation accuracy on CurveBench-Easy and 19.1\% on CurveBench-Hard. We further demonstrate benchmark utility through RLVR-style fine-tuning of open-weight vision-language models. Our trained Qwen3-VL-8B model improves over Qwen-3-VL-8B-Thinking from 2.8\% to 33.3\% tree-generation accuracy on CurveBench-Easy, exceeding GPT-5.4 and Claude Opus 4.5 under our evaluation protocol. The remaining gap, especially on CurveBench-Hard, shows that exact topology-aware visual reasoning remains far from solved.